单节点伪分布式Hadoop配置
(声明:文档里面需要用户输入的均已斜体表示)
第一步:安装JDK
因为Hadoop运行必须安装JDK环境,因此在安装好Linux后进入系统的第一步便是安装JDK,安装过程和在Windows环境中的安装步骤很类似,首先去Oracle官网去下载安装包,然后直接进行解压。我自己解压在路径/usr/jvm下面,假如你的安装包现在已经下载在jvm文件夹下面,然后按Ctrl+Alt+t进去命令行,然后输入
cd /usr/jvm
进入到jvm文件夹下面,然后再输入如下命令进行解压:
sudo tar -zxvf jdk-7u40-linux-i586.tar.gz
第二步:配置环境变量
解压结束以后,像在Windows系统中一样,需要配置环境变量,在Ubuntu中设置环境变量的过程为打开文件/etc/profile,因为权限的问题,因此在命令行需要输入的是
sudo gedit /etc/profile
然后在根据提示输入用户密码即可,然后在文件最下面添加如下:
export JAVA_HOME=/usr/jvm/jdk1.7.0_40
export CLASSPATH=".:$JAVA_HOME/lib:$JAVA_HOME/jre/lib$CLASSPATH"
export PATH="$JAVA_HOME/bin:$JAVA_HOME/jre/bin:/usr/hadoop/hadoop-1.2.1/bin:$PATH"
上面这三个以单词export开始的三个语句就类似于我们在Windows中的环境变量中设置一样,而且在这个里面和Windows中不同的是,在Windows中使用“;”号来表示分隔,但是在Ubuntu中是以“:”号来表示分隔。还需要注意的是,上面的路径都是我自己配置的时候的路径,因为我的JDK解压在/usr/jvm中,所以我的JAVA_HOME设置的是那个路径,而且如果安装的JDK版本不同那么后面的也不一样。同理在CLASSPATH路径中也是因为我自己的安装路径进行设置的,因此在配置过程中需要读者注意。在PATH路径中最后面还将Hadoop的路径也添加了进去,因此在读者安装了Hadoop后也将这个路径添加进环境变量PATH中去。
在配置完环境变量后,我们来将我们安装的JDK设置为Ubuntu系统默认的JDK,因为之前系统里面自带openjdk,在命令行里面输入如下:
sudo update-alternatives --install /usr/bin/java java /usr/jvm/jdk1.7.0_40/bin/java 300
sudo update-alternatives --install /usr/bin/javac javac /usr/jvm/jdk1.7.0_40/bin/javac 300
sudo update-alternatives --config java
然后我们就可以在命令行输入java -version来进行察看JDK是否已经配置好了。
第三步:安装Hadoop
我们可以去Hadoop官网上去下载安装包,我自己下载使用的是hadoop-1.2.1.tar.gz,然后当安装包下载结束后,将安装包解压到指定位置,我将安装包解压到了/usr/hadoop目录下面。
具体步骤是,像解压JDK一样,首先加入下载的Hadoop安装包在/usr/hadoop文件夹下面。然后在命令行下进入/usr/hadoop文件,类似于上面的。然后输入解压命令如下
sudo tar -zxvf hadoop-1.2.1.tar.gz
后面的Hadoop安装包名称具体看你下载的版本,我下载的是1.2.1版本的。为了以后操作/usr/hadoop文件夹里面的文件方便,我们设置一下文件夹的权限,在命令行输入如下
sudo chown -hR long /usr/hadoop
注意:在上面的命令中,long是我自己此时登陆的用户名,因此你需要将那个改成你自己的用户名。
第四步:配置Hadoop环境变量
在上面解压完Hadoop以后,现在我们来设置环境变量,其实在上面刚才我们配置JDK环境变量的时候,已经在PATH路径后面添加了Hadoop安装目录的bin目录的路径,所以那个就代表环境变量已经设置好了,但是读者一定要注意,不要Copy,要明确自己的Hadoop安装路径来进行配置。
第五步:设置SSH(安全外壳协议)
推荐安装OpenSSH,Hadoop需要通过SSH来启动Slave列表中各台主机的守护进程,因此SSH是必需安装的。虽然我们现在搭建的是一个伪分布式的平台,但是Hadoop没有区分开集群式和伪分布式,对于伪分布式,Hadoop会采用与集群相同的处理方式,即按次序启动文件conf/slaves中记载的主机进程,只不过在伪分布式中Salve为localhost而已,所以对于伪分布式,SSH是必须的。
配置过程(首先确保连接上网络):
① 安装SSH,在命令行输入如下
sudo apt-get install openssh-server
② 配置可以免密码登陆本机
在命令行输入(注意其中的ssh前面还有一个“.”不要遗漏)
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
(解释一下上面这条命令,ssh-keygen 代表生成密钥;-t 表示指定生成的密钥类型;dsa 是dsa密钥认证的意思;-P 用于提供密语(接着后面是两个单引号,不要打错);-f 表示指定生成密钥文件)
这条命令完成后,会在当前文件夹下面的.ssh文件夹下创建id_dsa和id_dsa.pub两个文件,这是SSH的一对私钥和公钥,把id_dsa.pub(公钥)追加到授权的key中去,输入如下命令:
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
至此,免密码登陆本机已经配置完毕。
说明:一般来说,安装SSH时会自动在当前用户下创建.ssh这个隐藏文件夹,一般不会直接看到,除非安装好了以后,在命令行使用命令ls才会看到。
③ 输入ssh localhost,显示登陆成功信息。
第六步:配置Hadoop伪分布式模式
现在进入到安装Hadoop的文件夹,找到里面的conf文件夹,点击进去。
-
配置hadoop环境文件hadoop-env.sh
打开文件,找到某行有”# export JAVA_HOME = ...” 字样的地方,去掉“#”,然后在等号后面填写你自己的JDK路径,比如像我自己的JDK路径,那就改为了如下所示
“export JAVA_HOME=/usr/jvm/jdk1.7.0_40”
-
配置Hadoop的核心文件core-site.xml
打开文件,会发现标签<configuration></configuration>中是空的,在空的地方添加如下配置
- <property>
- <name>fs.default.name</name>
- <value>hdfs://localhost:9000</value>
- </property>
- <property>
- <name>dfs.replication</name>
- <value>1</value>
- </property>
- <property>
- <name>hadoop.tmp.dir</name>
- <value>/home/long/tmp</value>
- </property>
(注意:在最后一个value值中,上面是long,是因为那是我的用户名,所以你需要将那个修改为你自己的用户名)
-
配置Hadoop中MapReduce的配置文件mapred-site.xml
打开文件,会发现标签<configuration></configuration>中是空的,在空的地方添加如下配置
- <property>
- <name>mapred.job.tracker</name>
- <value>localhost:9001</value>
- </property>
第七步:格式化Hadoop文件系统HDFS并启动Hadoop
首次运行hadoop必须进行格式化Hadoop文件系统,以后运行即可跳过。打开命令行,进入安装了Hadoop的文件路径下,然后在命令行输入
bin/hadoop namenode -format
格式化文件系统,然后启动Hadoop,在命令行里面输入
sbin/start-all.sh
验证是否正常启动,在命令行里面输入jps,然后回车,如果在命令行里面出现如下类似画面(因为前面的数字可以不同)
3235 NameNode
4113 Jps
3819 JobTracker
4059 TaskTracker
3721 SecondaryNameNode
3487 DataNode
则说明已经正常启动。如果以后需要关闭Hadoop的话,在Hadoop安装的文件夹路径下面在命令行输入
bin/stop-all.sh
来关闭Hadoop。
第八步:跑一个Hadoop中自带的WordCount程序,来体验一把
步骤如下(我在自己平台上的,读者可仿照实验):
1) 准备一个文本文件
首先我在桌面,新建了一个空白文档test,在里面输入一段话,或是几一些什么单词什么的,保存。
2) 将文本文件上传到dfs文件系统中的input目录下,打开命令行,进入到安装hadoop的文件夹下,然后输入如下
bin/hadoop dfs -copyFromLocal /home/long/桌面/test input
(注:如果dfs中不包含input目录的话就会自动创建一个)
3) 然后在命令行中输入如下命令,执行WordCount程序
bin/hadoop jar hadoop-examples-1.2.1.jar wordcount input output
(注:因为这个程序是Hadoop安装包里面自带的,就在hadoop-examples-1.2.1.jar中,后面的数字因为版本号的不同而不同,后面的input代表输入文件夹,output代表输出文件夹,系统输出时会自动创建)
读者如果这个执行成功了,就会发现有很多输出信息,从屏幕上显示,当程序运行结束后。
4) 察看结果在命令行里面输入
bin/hadoop dfs -cat output/part-r-00000
现在你就可以看见自己刚才输入文本里面的单词计数了。
相关推荐
Hadoop单节点伪分布式搭建中文版 个人翻译的Hadoop搭建文档,这里只是翻译了伪分布式搭建。 如果是测试、学习hadoop,伪分布式足够了。
Linux Hadoop 伪分布式配置 一个节点,线程模仿分布式
Hadoop Hadoop Hadoop Hadoop Hadoop Hadoop Hadoop 伪分布式模是在单机上拟 伪分布式模是在单机上拟 伪分布式模是在单机上拟 伪分布式模是在单机上拟 伪分布式模是在单机上拟 伪分布式模是在单机上拟 伪分布式模是...
史上最全 多节点 hadoop 开发环境搭建详解
Hadoop的安装分为单机方式、伪分布式方式和完全分布式方式。 a. 单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件...
本文档为初次学习大数据的学生提供单节点配置的简单教程,同时简单介绍了Hadoop的分布式文件系统HDFS的一些简单命令。
Hadoop平台搭建(单节点,伪分布,分布式文件系统及其上MapReduce程序测试) 原创,保证质量,辛苦了很多天,故3分!
Hadoop分布式集群搭建过程中IP配置,包括单机伪分布式和多台机器集群搭建。同时包括VBox linux虚拟机网卡配置
手把手教你搭建 5 节点 Hadoop 分布式集群(HA).pdf
在VMware虚拟机上,安装hadoop集群,采用的是伪分布式搭建,从安装jdk到hadoop的环境配置,全套都有,依据这个文档可以在个人Vmware上搭建自己的hadoop集群,这个集群有一个主节点,两个从节点。按照这个文档搭建后...
2.搭建完全分布式模式Hadoop 1.克隆出三台虚拟机 2.分别映射好三台虚拟机的IP与主机名 3.设置三台机器时钟同步 4.设置三台机器两两之间SSH密码登录 5.修改主节点配置文件并远程拷贝到从节点 (2)....
资源名称:CentOS 6.5 x64下安装19实体节点Hadoop 2.2.0集群配置指南内容简介: CentOS 6.5 x64下安装19实体节点Hadoop 2.2.0集群配置指南主要讲述的是CentOS 6.5 x64下安装19实体节点Hadoop 2.2.0集群配置指南;...
非常详细的hadoop集群搭建教程,包含SSH免密码登录,基本上按照教程上一步一步操作就能搭建成功,非常适合大数据初学者使用
手把手教你搭建分布式Hadoop家族集群视频教程(视频+讲义+笔记+配置),内容包括 Hadoop,SQOOP,Hive,Hbase的安装配置及集群搭建。内容包括但不限于: 01_回顾集群架构及配置集群时间同步 02_配置主节点与从节点...
hadoop分布式环境搭建的完整详细的实验报告,基于Hadoop的伪分布式安装,3个节点的分布式集群的安装和配置说明。很详细,值得借鉴
Hadoop集群分布式:本教程的操作环境是centos,使用两个节点作为集群环境: 一个作为 Master 主节点,另一个作为 Slave1 从节点;对Hadoop的完全分布式安装配置进行了详细的操作流程,以及相关注意事项。
-020.Hadoop架构分析之单节点体系.mp4 021.Hadoop架构分析之集群结构分析.mp4 022.Hadoop架构分析之HDFS架构分析.mp4 023.Hadoop架构分析之NN和DN原生文档解读.mp4 024.Hadoop架构分析之启动脚本分析(集群id的兼容...
env.sh(hadoop运行环境相关脚本)core-site.xml(hadoop核心配置)hdfs-site.xml(分布式文件系统HDFS相关配置)mapred-site.xml(MapReduce相关配置)yarn-site.xml(Yarn相关配置)slaves文件(里面写从节点所在...
多节点下Hadoop集群安装 参照上一篇:单节点下安装hadoop伪分布式集群 安装完后,讲解安装hadoop集群
你好世界/教程级别,用于在 OS X 上使用伪分布式 hadoop 配置进行编程操作。优胜美地上的 Hadoop 2.7。 这个项目展示了什么 这是正在进行中的工作,到目前为止已经演示了以下功能: HDFS 的直接编程控制和运行 map ...