当前位置:首页>开发>正文

如何配置hadoop伪分布式配置 如何在虚拟机中搭建hadoop

2023-04-29 06:54:32 互联网 未知 开发

 如何配置hadoop伪分布式配置 如何在虚拟机中搭建hadoop

如何配置hadoop伪分布式配置

0.关闭防火墙
service iptables start#立即开启防火墙,但是重启后失效。
service iptables stop#立即关闭防火墙,但是重启后失效。

重启后生效
chkconfig iptables on#开启防火墙,重启后生效
chkconfig iptables off#关闭防火墙,重启后生效

1.配置主机名
!!!!!注意安装hadoop的集群主机名不能有下划线!!不然会找不到主机!无法启动!
配置主机名
$vi /etc/sysconfig/network
$source /etc/sysconfig/network
例如:
NETWORKING=yes
HOSTNAME=hadoop0
2.配置Hosts
vi /etc/hosts
填入以下内容
127.0.0.1 hadoop0其他主机和ip对应信息。。。

3.配置面密码互通
生成自己的公钥和私钥,生成的公私钥将自动存放在/root/.ssh目录下。
$ ssh-keygen
把生成的公钥copy到远程机器上
$ ssh-copy-id [user]@[host]
此时在远程主机的/root/.ssh/authorized_keys文件中保存了公钥,在known_hosts中保存了已知主机信息,当再次访问的时候就不需要输入密码了。
$ ssh [host]
通过此命令远程连接,检验是否可以不需密码连接

4.安装JDK
通过fz将jdk安装包上传
解压安装包
tar -zxvf [jdk安装包位置]
配置环境变量
修改profile -- 这个文件是每个用户登录时都会运行的环境变量设置,当用户第一次登录时,该文件被执行. 并从/etc/profile.d目录的配置文件中搜集shell的设置。
vim /etc/profile
在文件行尾加入配置后保存退出
export JAVA_HOME=/home/app/jdk1.7.0_45/
export PATH=$PATH:$JAVA_HOME/bin
重新加载profile使配置生效
source /etc/profile
环境变量配置完成,测试环境变量是否生效
echo $JAVA_HOME
java -version

5.安装hadoop
通过fz将hadoop安装包上传到linux
解压安装包
tar -zxvf [hadoop安装包位置]

6.配置hadoop
(1)修改 hadoop-env.sh
通过vim打开
vim [hadoop]/etc/hadoop/hadoop-env.sh
主要是修改java_home的路径
在hadoop-env.sh的第27行,把export JAVA_HOME=${JAVA_HOME}修改成具体的路径
重新加载使修改生效
source hadoop-env.sh
(2)修改 core-site.xml
通过vim打开
vim [hadoop]/etc/hadoop/core-site.xml
增加namenode配置、文件存储位置配置



fs.defaultFS
hdfs://hadoop01:9000



hadoop.tmp.dir
/home/park/work/hadoop-2.5.2/tmp


(3)修改 hdfs-site.xml
通过vim打开
vim [hadoop]/etc/hadoop/hdfs-site.xml
配置包括自身在内的备份副本数量。




dfs.replication
3



(4)修改 mapred-site.xml
说明:在/etc/hadoop的目录下,只有一个mapred-site.xml.template文件,复制一个
cp mapred-site.xml.template mapred-site.xml
通过vim打开
vim [hadoop]/etc/hadoop/mapred-site.xml
配置mapreduce运行在yarn上



mapreduce.framework.name
yarn



(5)修改 yarn-site.xml
通过vim打开
vim [hadoop]/etc/hadoop/yarn-site.xml
配置



yarn.resourcemanager.hostname
hadoop01



yarn.nodemanager.aux-services
mapreduce_shuffle



(6)修改 slaves

(7)配置hadoop的环境变量
vim /etc/profile
export HADOOP_HOME=/home/park/work/hadoop-2.5.2/
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
重新加载profile使配置生效
source /etc/profile
环境变量配置完成,测试环境变量是否生效
echo $HADOOP_HOME

(8)重启linux
$reboot
????为什么需要重启配置文件才起作用?原因不明????
(8)格式化namenode
进入 hadoop/bin 输入命令格式化namenode
hadoop namenode -format(hdfs namenode -format 以前的方式)
在格式化的时候,会有这样的输出:
Storage directory /tmp/hadoop-root/dfs/name has been successfully formatted

7.启动hadoop
在/home/app/hadoop-2.6.0/sbin目录下
$start-all.sh

8.关闭hadoop
在/home/app/hadoop-2.6.0/sbin目录下
$stop-all.sh

9.hdfs命令
hadoop fs -mkdir /user/trunk
hadoop fs -ls /user
hadoop fs -lsr /user (递归的)
hadoop fs -put test.txt /user/trunk
hadoop fs -put test.txt . (复制到hdfs当前目录下,首先要创建当前目录)
hadoop fs -get /user/trunk/test.txt . (复制到本地当前目录下)
hadoop fs -cat /user/trunk/test.txt
hadoop fs -tail /user/trunk/test.txt (查看最后1000字节)
hadoop fs -rm /user/trunk/test.txt
hadoop fs -rmdir /user/trunk
hadoop fs -help ls (查看ls命令的帮助文档)

10.通过浏览器访问hadoop管理页面
http://[server_ip]:50070
**如果访问不了有可能是服务器50070端口被关闭了。通过如下方式打开50070端口:
service iptables status #查询防火墙状态
service iptables start #开启防火墙
iptables -I INPUT -p tcp --dport 80 -j ACCEPT #开通特定端口
iptables -I INPUT -p tcp --dport 80 -j DROP #关闭特定端口
service iptables save #保存配置
service iptables restart #重启防火墙

如何在虚拟机中搭建hadoop

方法/步骤
设置虚拟机和本机上的ip

可以清楚的看到多出现了两个网卡选项,这里我们使用VMware Network Adapter VMnet1 就行了,然后将其与的一个禁用。启用第一个之后,就要去给这个设置ip地址了,那么这个ip地址应该设置为多少呢?这个可以根据你自己的喜好自己去设置就好了,只要是在有效的网关之内都行
下面是我设置的ip地址

这样设置好了本机的ip地址之后呢,就应该去设置虚拟机的ip地址了,首先要保证虚拟机被本机的通讯方式为host-only模式,即,仅主机模式、
打开VmWare之后呢,去这里设置仅主机模式

-------------------------------------------------------
这里要注意一点,首先一个是虚拟机的ip地址为192.168.80.100和一个是我们自己电脑的上设置的Vmvare Network Adapter Vmnet1的ip地址为192.3168.80.1。设置好了之后打开虚拟机的小黑屏。

END
liniux系统配置

然后选择第四项打开小黑屏。
打开小黑屏之后一定要记得让网卡重新启动一下,执行命令
Service network restart 来重启网卡

END
修改主机名
下一步,修改主机名,为什么要修改linux虚拟机的主机名呢?主要还是方便以后我们访问。
现在我们可以在本机上面使用PieTTY这个工具来连接我们的虚拟机了,这样我们就不用去虚拟机的小黑屏下面操作了,太方便了。

然后进进入了network这个文件的更改操作中去了
Vi进入该文件之后默认是不可修改的,只可以看,不可以修改,那么按下键盘上面的i字母,就变成可以修改的状态了

然后添加一行,HOSTNAME=hadoop,然后点击键盘右上角Esc键,然后在英文输入法下面输入

接着输入:wq 然后回车,保存修改。这样,就永远的把主机名给改成hadoop了,使用hostname来验证主机名

END
主机名和ip地址进行绑定
首先为什么要让ip地址和主机名来进行绑定呢,狠简单,每一台电脑在网络中的唯一标识就是本电脑的ip地址,首先可以确定ip地址是永远不会重复的,那么我们每次访问的百度首页其实就是在访问百度主机的ip地址,如果你知道百度主机的ip地址,直接在网址栏里输入ip地址,一样的会访问百度的首页。
既然如此,我们以后直接用ip来访问网页就好了,干嘛还要用www.baidu.com呢?首先,用ip来访问也太麻烦了,并且也不便于记忆,所以我们将我们的主机名跟我们的ip地址绑定到一起,以后直接访问我们的主机名就是相当于访问我们的ip地址了。
然后来进行主机名和ip地址进行绑定的操作吧。
还是

关闭虚拟机的防火墙

直接执行service iptables stop命令来关闭防火墙

到这一步,hadoop设置已完毕,下一篇,将会详细介绍如何设置hadoop源码。。。敬请期待如何搭建hadoop分布式环境,怎样快速搭建

怎样在hadoop伪分布式集群上安装mysql

先回答你标题的提问:hadoop完全分布式:3个及以上的实体机或者虚拟机组件的机群。hadoop伪分布式:一个节点看了以上两点相信你已经明白了,“用vm多装几个unbuntu配置完全分布式,然后做实验”这是完全可行的。实际上我们通常也是这么做的,当然可能要求你的电脑cpu和内存足够支撑你这一计划。一点建议:如果你要开发基于Hadoop的分布式程序,伪分布式足够你实验了。如果你要做很多其他事情,比如玩玩cm,玩玩oozie,玩玩hbase,建议装多个虚拟机。

什么是伪分布式?(hadoop中遇到的)

伪分布式就是假分布式,假就假在只有一台机器而不是多台机器来完成一个任务,但是模拟了分布式的这个过程,所以伪分布式下Hadoop也就是虽然在一个机器上配置了hadoop的所有节点,但伪分布式完成了所有分布式所必须的事件。伪分布式Hadoop和单机版最大区别就在于需要配置HDFS。

扩展资料:
当客户端想读取一个文件的时候,客户端需要和伪分布式节点进行交互,因为它是唯一存储数据节点元数据的节点。伪分布式规定奴隶节点的存储数据的地址跟位置。客户端通过伪分布式找到它需要数据的节点,然后直接在找到DataNode中进行读操作。
考虑到安全和授权的目的,伪分布式给客户端提供token,这个token需要出示给DateNote进行认证,认证通过后,才可以读取文件。

hadoop在进行伪分布式搭建时ssh必须配置成无密码登录吗

第一步: 安装JDK 因为 Hadoop 运行必须安装 JDK 环境,因此在安装好 Linux 后进入系统的第一步 便是安装 JDK ,安装过程和在 Windows 环境中的安装步骤很类似,首先去Oracle 官网 去下载安装包,然后直接进行解压。我自己解压在路径 /usr/jvm ...

在cygwin中搭建hadoop,,建立伪分布式,关于datanode启动的小问题

ID不一致,你后来肯定是把namenode 格式化过了,但是datanode上的id没有变
看看namenode 和datanode 中/hadoop/dfs/data/current/目录下面的

VERSION文件,里面的namespaceID是否一致,不一致就改一致

最新文章