以下8个步骤是我在使用Eclipse开发MapReduce程序时的路线,假定读者已经配置好了Hadoop环境并且了解Eclipse的相关操作。

步骤0~4为在Eclipse中编写和调试MapReduce程序;步骤5、6为在伪分布模式下运行MapReduce程序,并且通过导出项目到指定目录实现了Eclipse项目与Hadoop的关联。

0 创建Java项目

1 在项目的CLASS PATH中添加Hadoop相关的JAR引用(注意在添加JAR文件,而不是JAR文件夹,要不然在4中会因为找不到JAR或者Class而报错)

如果你还下载了Hadoop的源码,也可以给Hadoop相关的JAR添加源码,这样在Eclipse就可以使用F3参看Hadoop源码)

2 按照MapReduce类规范,编写自己的MapReduce类

3 配置MapReduce类的运行参数

4 在Eclipse中以单机模式运行/调试程序

5 将程序导出(Export)为JAR文件到$HADOOP_HOME/lib下

6 在伪分布模式下运行程序 bin/hadoop jar lib/ur-exported-jar.JAR full-class-name 参数列表

例如,你导出的JAR文件名为myhadoop.jar,类名称com.coolcompany.wordcount,命令就是:bin/hadoop jar lib/myhadoop.jar com.coolcompany.wordcount 参数列表

7 部署程序到真实的Hadoop集群

---EOF---