当前位置：首页>开发>正文

什么是伪分布式（hadoop中遇到的） Hadoop中单机模式和伪分布式的区别是什么

2023-07-30 09:47:55 互联网未知开发

什么是伪分布式？（hadoop中遇到的）

伪分布式就是假分布式，假就假在只有一台机器而不是多台机器来完成一个任务,但是模拟了分布式的这个过程，所以伪分布式下Hadoop也就是虽然在一个机器上配置了hadoop的所有节点，但伪分布式完成了所有分布式所必须的事件。伪分布式Hadoop和单机版最大区别就在于需要配置HDFS。

扩展资料：
当客户端想读取一个文件的时候，客户端需要和伪分布式节点进行交互，因为它是唯一存储数据节点元数据的节点。伪分布式规定奴隶节点的存储数据的地址跟位置。客户端通过伪分布式找到它需要数据的节点，然后直接在找到DataNode中进行读操作。
考虑到安全和授权的目的，伪分布式给客户端提供token，这个token需要出示给DateNote进行认证，认证通过后，才可以读取文件。

Hadoop中单机模式和伪分布式的区别是什么

单机(非分布式)模式
这种模式在一台单机上运行，没有分布式文件系统，而是直接读写本地操作系统的文件系统。
注意事项：运行bin/hadoopjarhadoop-0.16.0-examples.jarwordcounttest-intest-out时，务必注意第一个参数是jar,不是-jar,当你用-jar时，不会告诉你是参数错了，报告出来的错误信息是：Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/util/ProgramDriver,笔者当时以为是classpath的设置问题，浪费了不少时间。通过分析bin/hadoop脚本可知，-jar并不是bin/hadoop脚本定义的参数，此脚本会把-jar作为Java的参数，Java的-jar参数表示执行一个Jar文件(这个Jar文件必须是一个可执行的Jar,即在MANIFEST中定义了主类),此时外部定义的classpath是不起作用的，因而会抛出java.lang.NoClassDefFoundError异常。而jar是bin/hadoop脚本定义的参数，会调用Hadoop自己的一个工具类RunJar，这个工具类也能够执行一个Jar文件，并且外部定义的classpath有效。
伪分布式运行模式
这种模式也是在一台单机上运行，但用不同的Java进程模仿分布式运行中的各类结点(NameNode,DataNode,JobTracker,TaskTracker,SecondaryNameNode)，请注意分布式运行中的这几个结点的区别：从分布式存储的角度来说，集群中的结点由一个NameNode和若干个DataNode组成,另有一个SecondaryNameNode作为NameNode的备份。从分布式应用的角度来说，集群中的结点由一个JobTracker和若干个TaskTracker组成，JobTracker负责任务的调度，TaskTracker负责并行执行任务。TaskTracker必须运行在DataNode上，这样便于数据的本地计算。JobTracker和NameNode则无须在同一台机器上。

Hadoop的伪分布模式和完全分布模式有什么区别？在具体执行上有什么区别？

先回答你标题的提问：

hadoop完全分布式：3个及以上的实体机或者虚拟机组件的机群。
hadoop伪分布式：一个节点

看了以上两点相信你已经明白了，“用vm多装几个unbuntu配置完全分布式，然后做实验”这是完全可行的。实际上我们通常也是这么做的，当然可能要求你的电脑cpu和内存足够支撑你这一计划。

一点建议：如果你要开发基于hadoop的分布式程序，伪分布式足够你实验了。如果你要做很多其他事情，比如玩玩cm，玩玩oozie，玩玩hbase，建议装多个虚拟机。

hadoop集群有几种模式可以运行

单机（本地）模式：这种模式在一台单机上运行，没有分布式文件系统，而是直接读写本地操作系统的文件系统。在单机模式（standalone）中不会存在守护进程，所有东西都运行在一个JVM上。这里同样没有DFS，使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序，这也是最少使用的一个模式。
　　伪分布式模式：也是在一台单机上运行，但用不同的Java进程模仿分布式运行中的各类结点(NameNode,DataNode,JobTracker,TaskTracker,SecondaryNameNode)，伪分布式（Pseudo）适用于开发和测试环境，在这个模式中，所有守护进程都在同一台机器上运行。
　　全分布式模式：全分布模式通常被用于生产环境，使用N台主机组成一个Hadoop集群，Hadoop守护进程运行在每台主机之上。这里会存在Namenode运行的主机，Datanode运行的主机，以及tasktracker运行的主机。在分布式环境下，主节点和从节点会分开。

如何配置hadoop伪分布式配置

0.关闭防火墙
service iptables start#立即开启防火墙，但是重启后失效。
service iptables stop#立即关闭防火墙，但是重启后失效。

重启后生效
chkconfig iptables on#开启防火墙，重启后生效
chkconfig iptables off#关闭防火墙，重启后生效

1.配置主机名
!!!!!注意安装hadoop的集群主机名不能有下划线!!不然会找不到主机!无法启动!
配置主机名
$vi /etc/sysconfig/network
$source /etc/sysconfig/network
例如：
NETWORKING=yes
HOSTNAME=hadoop0
2.配置Hosts
vi /etc/hosts
填入以下内容
127.0.0.1 hadoop0其他主机和ip对应信息。。。

3.配置面密码互通
生成自己的公钥和私钥,生成的公私钥将自动存放在/root/.ssh目录下。
$ ssh-keygen
把生成的公钥copy到远程机器上
$ ssh-copy-id [user]@[host]
此时在远程主机的/root/.ssh/authorized_keys文件中保存了公钥,在known_hosts中保存了已知主机信息，当再次访问的时候就不需要输入密码了。
$ ssh [host]
通过此命令远程连接，检验是否可以不需密码连接

4.安装JDK
通过fz将jdk安装包上传
解压安装包
tar -zxvf [jdk安装包位置]
配置环境变量
修改profile -- 这个文件是每个用户登录时都会运行的环境变量设置，当用户第一次登录时,该文件被执行. 并从/etc/profile.d目录的配置文件中搜集shell的设置。
vim /etc/profile
在文件行尾加入配置后保存退出
export JAVA_HOME=/home/app/jdk1.7.0_45/
export PATH=$PATH:$JAVA_HOME/bin
重新加载profile使配置生效
source /etc/profile
环境变量配置完成，测试环境变量是否生效
echo $JAVA_HOME
java -version

5.安装hadoop
通过fz将hadoop安装包上传到linux
解压安装包
tar -zxvf [hadoop安装包位置]

6.配置hadoop
(1)修改 hadoop-env.sh
通过vim打开
vim [hadoop]/etc/hadoop/hadoop-env.sh
主要是修改java_home的路径
在hadoop-env.sh的第27行,把export JAVA_HOME=${JAVA_HOME}修改成具体的路径
重新加载使修改生效
source hadoop-env.sh
(2)修改 core-site.xml
通过vim打开
vim [hadoop]/etc/hadoop/core-site.xml
增加namenode配置、文件存储位置配置

fs.defaultFS
hdfs://hadoop01:9000

hadoop.tmp.dir
/home/park/work/hadoop-2.5.2/tmp

(3)修改 hdfs-site.xml
通过vim打开
vim [hadoop]/etc/hadoop/hdfs-site.xml
配置包括自身在内的备份副本数量。

dfs.replication
3

(4)修改 mapred-site.xml
说明：在/etc/hadoop的目录下，只有一个mapred-site.xml.template文件，复制一个
cp mapred-site.xml.template mapred-site.xml
通过vim打开
vim [hadoop]/etc/hadoop/mapred-site.xml
配置mapreduce运行在yarn上

mapreduce.framework.name
yarn

(5)修改 yarn-site.xml
通过vim打开
vim [hadoop]/etc/hadoop/yarn-site.xml
配置

yarn.resourcemanager.hostname
hadoop01

yarn.nodemanager.aux-services
mapreduce_shuffle

(6)修改 slaves

(7)配置hadoop的环境变量
vim /etc/profile
export HADOOP_HOME=/home/park/work/hadoop-2.5.2/
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
重新加载profile使配置生效
source /etc/profile
环境变量配置完成，测试环境变量是否生效
echo $HADOOP_HOME

(8)重启linux
$reboot
????为什么需要重启配置文件才起作用?原因不明????
(8)格式化namenode
进入 hadoop/bin 输入命令格式化namenode
hadoop namenode -format(hdfs namenode -format 以前的方式)
在格式化的时候，会有这样的输出：
Storage directory /tmp/hadoop-root/dfs/name has been successfully formatted

7.启动hadoop
在/home/app/hadoop-2.6.0/sbin目录下
$start-all.sh

8.关闭hadoop
在/home/app/hadoop-2.6.0/sbin目录下
$stop-all.sh

9.hdfs命令
hadoop fs -mkdir /user/trunk
hadoop fs -ls /user
hadoop fs -lsr /user (递归的)
hadoop fs -put test.txt /user/trunk
hadoop fs -put test.txt . (复制到hdfs当前目录下，首先要创建当前目录)
hadoop fs -get /user/trunk/test.txt . (复制到本地当前目录下)
hadoop fs -cat /user/trunk/test.txt
hadoop fs -tail /user/trunk/test.txt (查看最后1000字节)
hadoop fs -rm /user/trunk/test.txt
hadoop fs -rmdir /user/trunk
hadoop fs -help ls (查看ls命令的帮助文档)

10.通过浏览器访问hadoop管理页面
http://[server_ip]:50070
**如果访问不了有可能是服务器50070端口被关闭了。通过如下方式打开50070端口:
service iptables status #查询防火墙状态
service iptables start #开启防火墙
iptables -I INPUT -p tcp --dport 80 -j ACCEPT #开通特定端口
iptables -I INPUT -p tcp --dport 80 -j DROP #关闭特定端口
service iptables save #保存配置
service iptables restart #重启防火墙

学习hadoop到底是部署伪分布式还是安装集群

先回答你标题的提问：hadoop完全分布式：3个及以上的实体机或者虚拟机组件的机群。hadoop伪分布式：一个节点看了以上两点相信你已经明白了，“用vm多装几个unbuntu配置完全分布式，然后做实验”这是完全可行的。实际上我们通常也是这么做的，当然可能要求你的电脑cpu和内存足够支撑你这一计划。一点建议：如果你要开发基于Hadoop的分布式程序，伪分布式足够你实验了。如果你要做很多其他事情，比如玩玩cm，玩玩oozie，玩玩hbase，建议装多个虚拟机。

什么是伪分布式（hadoop中遇到的） Hadoop中单机模式和伪分布式的区别是什么

什么是伪分布式？（hadoop中遇到的）

Hadoop中单机模式和伪分布式的区别是什么

Hadoop的伪分布模式和完全分布模式有什么区别？在具体执行上有什么区别？

hadoop集群有几种模式可以运行

如何配置hadoop伪分布式配置

学习hadoop到底是部署伪分布式还是安装集群

最新文章

随便看看