当前位置：首页>开发>正文

如何配置hadoop伪分布式配置如何在虚拟机中搭建hadoop

2023-04-29 06:54:32 互联网未知开发

如何配置hadoop伪分布式配置

0.关闭防火墙
service iptables start#立即开启防火墙，但是重启后失效。
service iptables stop#立即关闭防火墙，但是重启后失效。

重启后生效
chkconfig iptables on#开启防火墙，重启后生效
chkconfig iptables off#关闭防火墙，重启后生效

1.配置主机名
!!!!!注意安装hadoop的集群主机名不能有下划线!!不然会找不到主机!无法启动!
配置主机名
$vi /etc/sysconfig/network
$source /etc/sysconfig/network
例如：
NETWORKING=yes
HOSTNAME=hadoop0
2.配置Hosts
vi /etc/hosts
填入以下内容
127.0.0.1 hadoop0其他主机和ip对应信息。。。

3.配置面密码互通
生成自己的公钥和私钥,生成的公私钥将自动存放在/root/.ssh目录下。
$ ssh-keygen
把生成的公钥copy到远程机器上
$ ssh-copy-id [user]@[host]
此时在远程主机的/root/.ssh/authorized_keys文件中保存了公钥,在known_hosts中保存了已知主机信息，当再次访问的时候就不需要输入密码了。
$ ssh [host]
通过此命令远程连接，检验是否可以不需密码连接

4.安装JDK
通过fz将jdk安装包上传
解压安装包
tar -zxvf [jdk安装包位置]
配置环境变量
修改profile -- 这个文件是每个用户登录时都会运行的环境变量设置，当用户第一次登录时,该文件被执行. 并从/etc/profile.d目录的配置文件中搜集shell的设置。
vim /etc/profile
在文件行尾加入配置后保存退出
export JAVA_HOME=/home/app/jdk1.7.0_45/
export PATH=$PATH:$JAVA_HOME/bin
重新加载profile使配置生效
source /etc/profile
环境变量配置完成，测试环境变量是否生效
echo $JAVA_HOME
java -version

5.安装hadoop
通过fz将hadoop安装包上传到linux
解压安装包
tar -zxvf [hadoop安装包位置]

6.配置hadoop
(1)修改 hadoop-env.sh
通过vim打开
vim [hadoop]/etc/hadoop/hadoop-env.sh
主要是修改java_home的路径
在hadoop-env.sh的第27行,把export JAVA_HOME=${JAVA_HOME}修改成具体的路径
重新加载使修改生效
source hadoop-env.sh
(2)修改 core-site.xml
通过vim打开
vim [hadoop]/etc/hadoop/core-site.xml
增加namenode配置、文件存储位置配置

fs.defaultFS
hdfs://hadoop01:9000

hadoop.tmp.dir
/home/park/work/hadoop-2.5.2/tmp

(3)修改 hdfs-site.xml
通过vim打开
vim [hadoop]/etc/hadoop/hdfs-site.xml
配置包括自身在内的备份副本数量。

dfs.replication
3

(4)修改 mapred-site.xml
说明：在/etc/hadoop的目录下，只有一个mapred-site.xml.template文件，复制一个
cp mapred-site.xml.template mapred-site.xml
通过vim打开
vim [hadoop]/etc/hadoop/mapred-site.xml
配置mapreduce运行在yarn上

mapreduce.framework.name
yarn

(5)修改 yarn-site.xml
通过vim打开
vim [hadoop]/etc/hadoop/yarn-site.xml
配置

yarn.resourcemanager.hostname
hadoop01

yarn.nodemanager.aux-services
mapreduce_shuffle

(6)修改 slaves

(7)配置hadoop的环境变量
vim /etc/profile
export HADOOP_HOME=/home/park/work/hadoop-2.5.2/
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
重新加载profile使配置生效
source /etc/profile
环境变量配置完成，测试环境变量是否生效
echo $HADOOP_HOME

(8)重启linux
$reboot
????为什么需要重启配置文件才起作用?原因不明????
(8)格式化namenode
进入 hadoop/bin 输入命令格式化namenode
hadoop namenode -format(hdfs namenode -format 以前的方式)
在格式化的时候，会有这样的输出：
Storage directory /tmp/hadoop-root/dfs/name has been successfully formatted

7.启动hadoop
在/home/app/hadoop-2.6.0/sbin目录下
$start-all.sh

8.关闭hadoop
在/home/app/hadoop-2.6.0/sbin目录下
$stop-all.sh

9.hdfs命令
hadoop fs -mkdir /user/trunk
hadoop fs -ls /user
hadoop fs -lsr /user (递归的)
hadoop fs -put test.txt /user/trunk
hadoop fs -put test.txt . (复制到hdfs当前目录下，首先要创建当前目录)
hadoop fs -get /user/trunk/test.txt . (复制到本地当前目录下)
hadoop fs -cat /user/trunk/test.txt
hadoop fs -tail /user/trunk/test.txt (查看最后1000字节)
hadoop fs -rm /user/trunk/test.txt
hadoop fs -rmdir /user/trunk
hadoop fs -help ls (查看ls命令的帮助文档)

10.通过浏览器访问hadoop管理页面
http://[server_ip]:50070
**如果访问不了有可能是服务器50070端口被关闭了。通过如下方式打开50070端口:
service iptables status #查询防火墙状态
service iptables start #开启防火墙
iptables -I INPUT -p tcp --dport 80 -j ACCEPT #开通特定端口
iptables -I INPUT -p tcp --dport 80 -j DROP #关闭特定端口
service iptables save #保存配置
service iptables restart #重启防火墙

如何在虚拟机中搭建hadoop

方法/步骤
设置虚拟机和本机上的ip

可以清楚的看到多出现了两个网卡选项，这里我们使用VMware Network Adapter VMnet1 就行了，然后将其与的一个禁用。启用第一个之后，就要去给这个设置ip地址了，那么这个ip地址应该设置为多少呢？这个可以根据你自己的喜好自己去设置就好了，只要是在有效的网关之内都行
下面是我设置的ip地址

这样设置好了本机的ip地址之后呢，就应该去设置虚拟机的ip地址了，首先要保证虚拟机被本机的通讯方式为host-only模式，即，仅主机模式、
打开VmWare之后呢，去这里设置仅主机模式

-------------------------------------------------------
这里要注意一点，首先一个是虚拟机的ip地址为192.168.80.100和一个是我们自己电脑的上设置的Vmvare Network Adapter Vmnet1的ip地址为192.3168.80.1。设置好了之后打开虚拟机的小黑屏。

END
liniux系统配置

然后选择第四项打开小黑屏。
打开小黑屏之后一定要记得让网卡重新启动一下，执行命令
Service network restart 来重启网卡

END
修改主机名
下一步，修改主机名，为什么要修改linux虚拟机的主机名呢？主要还是方便以后我们访问。
现在我们可以在本机上面使用PieTTY这个工具来连接我们的虚拟机了，这样我们就不用去虚拟机的小黑屏下面操作了，太方便了。

然后进进入了network这个文件的更改操作中去了
Vi进入该文件之后默认是不可修改的，只可以看，不可以修改，那么按下键盘上面的i字母，就变成可以修改的状态了

然后添加一行，HOSTNAME=hadoop，然后点击键盘右上角Esc键，然后在英文输入法下面输入

接着输入：wq 然后回车，保存修改。这样，就永远的把主机名给改成hadoop了，使用hostname来验证主机名

END
主机名和ip地址进行绑定
首先为什么要让ip地址和主机名来进行绑定呢，狠简单，每一台电脑在网络中的唯一标识就是本电脑的ip地址，首先可以确定ip地址是永远不会重复的，那么我们每次访问的百度首页其实就是在访问百度主机的ip地址，如果你知道百度主机的ip地址，直接在网址栏里输入ip地址，一样的会访问百度的首页。
既然如此，我们以后直接用ip来访问网页就好了，干嘛还要用www.baidu.com呢？首先，用ip来访问也太麻烦了，并且也不便于记忆，所以我们将我们的主机名跟我们的ip地址绑定到一起，以后直接访问我们的主机名就是相当于访问我们的ip地址了。
然后来进行主机名和ip地址进行绑定的操作吧。
还是

关闭虚拟机的防火墙

直接执行service iptables stop命令来关闭防火墙

到这一步，hadoop设置已完毕，下一篇，将会详细介绍如何设置hadoop源码。。。敬请期待如何搭建hadoop分布式环境，怎样快速搭建

怎样在hadoop伪分布式集群上安装mysql

先回答你标题的提问：hadoop完全分布式：3个及以上的实体机或者虚拟机组件的机群。hadoop伪分布式：一个节点看了以上两点相信你已经明白了，“用vm多装几个unbuntu配置完全分布式，然后做实验”这是完全可行的。实际上我们通常也是这么做的，当然可能要求你的电脑cpu和内存足够支撑你这一计划。一点建议：如果你要开发基于Hadoop的分布式程序，伪分布式足够你实验了。如果你要做很多其他事情，比如玩玩cm，玩玩oozie，玩玩hbase，建议装多个虚拟机。

什么是伪分布式？（hadoop中遇到的）

伪分布式就是假分布式，假就假在只有一台机器而不是多台机器来完成一个任务,但是模拟了分布式的这个过程，所以伪分布式下Hadoop也就是虽然在一个机器上配置了hadoop的所有节点，但伪分布式完成了所有分布式所必须的事件。伪分布式Hadoop和单机版最大区别就在于需要配置HDFS。

扩展资料：
当客户端想读取一个文件的时候，客户端需要和伪分布式节点进行交互，因为它是唯一存储数据节点元数据的节点。伪分布式规定奴隶节点的存储数据的地址跟位置。客户端通过伪分布式找到它需要数据的节点，然后直接在找到DataNode中进行读操作。
考虑到安全和授权的目的，伪分布式给客户端提供token，这个token需要出示给DateNote进行认证，认证通过后，才可以读取文件。

hadoop在进行伪分布式搭建时ssh必须配置成无密码登录吗

第一步：安装JDK 因为 Hadoop 运行必须安装 JDK 环境，因此在安装好 Linux 后进入系统的第一步便是安装 JDK ，安装过程和在 Windows 环境中的安装步骤很类似，首先去Oracle 官网去下载安装包，然后直接进行解压。我自己解压在路径 /usr/jvm ...

在cygwin中搭建hadoop，，建立伪分布式，关于datanode启动的小问题

ID不一致，你后来肯定是把namenode 格式化过了，但是datanode上的id没有变
看看namenode 和datanode 中/hadoop/dfs/data/current/目录下面的

VERSION文件，里面的namespaceID是否一致，不一致就改一致

如何配置hadoop伪分布式配置如何在虚拟机中搭建hadoop

如何配置hadoop伪分布式配置

如何在虚拟机中搭建hadoop

怎样在hadoop伪分布式集群上安装mysql

什么是伪分布式？（hadoop中遇到的）

hadoop在进行伪分布式搭建时ssh必须配置成无密码登录吗

在cygwin中搭建hadoop，，建立伪分布式，关于datanode启动的小问题

最新文章

随便看看

如何配置hadoop伪分布式配置 如何在虚拟机中搭建hadoop

如何配置hadoop伪分布式配置

如何在虚拟机中搭建hadoop

怎样在hadoop伪分布式集群上安装mysql

什么是伪分布式？（hadoop中遇到的）

hadoop在进行伪分布式搭建时ssh必须配置成无密码登录吗

在cygwin中搭建hadoop，，建立伪分布式，关于datanode启动的小问题

最新文章

随便看看

如何配置hadoop伪分布式配置如何在虚拟机中搭建hadoop