当前位置：首页>开发>正文

Hadoop中单机模式和伪分布式的区别是什么什么是伪分布式（hadoop中遇到的）

2023-04-21 22:55:51 互联网未知开发

Hadoop中单机模式和伪分布式的区别是什么

单机(非分布式)模式
这种模式在一台单机上运行，没有分布式文件系统，而是直接读写本地操作系统的文件系统。
注意事项：运行bin/hadoopjarhadoop-0.16.0-examples.jarwordcounttest-intest-out时，务必注意第一个参数是jar,不是-jar,当你用-jar时，不会告诉你是参数错了，报告出来的错误信息是：Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/util/ProgramDriver,笔者当时以为是classpath的设置问题，浪费了不少时间。通过分析bin/hadoop脚本可知，-jar并不是bin/hadoop脚本定义的参数，此脚本会把-jar作为Java的参数，Java的-jar参数表示执行一个Jar文件(这个Jar文件必须是一个可执行的Jar,即在MANIFEST中定义了主类),此时外部定义的classpath是不起作用的，因而会抛出java.lang.NoClassDefFoundError异常。而jar是bin/hadoop脚本定义的参数，会调用Hadoop自己的一个工具类RunJar，这个工具类也能够执行一个Jar文件，并且外部定义的classpath有效。
伪分布式运行模式
这种模式也是在一台单机上运行，但用不同的Java进程模仿分布式运行中的各类结点(NameNode,DataNode,JobTracker,TaskTracker,SecondaryNameNode)，请注意分布式运行中的这几个结点的区别：从分布式存储的角度来说，集群中的结点由一个NameNode和若干个DataNode组成,另有一个SecondaryNameNode作为NameNode的备份。从分布式应用的角度来说，集群中的结点由一个JobTracker和若干个TaskTracker组成，JobTracker负责任务的调度，TaskTracker负责并行执行任务。TaskTracker必须运行在DataNode上，这样便于数据的本地计算。JobTracker和NameNode则无须在同一台机器上。

什么是伪分布式？（hadoop中遇到的）

伪分布式就是假分布式，假就假在只有一台机器而不是多台机器来完成一个任务,但是模拟了分布式的这个过程，所以伪分布式下Hadoop也就是虽然在一个机器上配置了hadoop的所有节点，但伪分布式完成了所有分布式所必须的事件。伪分布式Hadoop和单机版最大区别就在于需要配置HDFS。

扩展资料：
当客户端想读取一个文件的时候，客户端需要和伪分布式节点进行交互，因为它是唯一存储数据节点元数据的节点。伪分布式规定奴隶节点的存储数据的地址跟位置。客户端通过伪分布式找到它需要数据的节点，然后直接在找到DataNode中进行读操作。
考虑到安全和授权的目的，伪分布式给客户端提供token，这个token需要出示给DateNote进行认证，认证通过后，才可以读取文件。

Hadoop的伪分布模式和完全分布模式有什么区别？在具体执行上有什么区别？

先回答你标题的提问：

hadoop完全分布式：3个及以上的实体机或者虚拟机组件的机群。
hadoop伪分布式：一个节点

看了以上两点相信你已经明白了，“用vm多装几个unbuntu配置完全分布式，然后做实验”这是完全可行的。实际上我们通常也是这么做的，当然可能要求你的电脑cpu和内存足够支撑你这一计划。

一点建议：如果你要开发基于hadoop的分布式程序，伪分布式足够你实验了。如果你要做很多其他事情，比如玩玩cm，玩玩oozie，玩玩hbase，建议装多个虚拟机。

什么叫hadoop伪分布，是一台主机里有虚拟机这样

伪分布模式也是在一台单机上运行，但用不同的 Java 进程模仿分布式运行中的各类结点 ( NameNode, DataNode, JobTracker, TaskTracker, Secondary NameNode )，分布式运行中的这几个结点的区别：
从分布式存储的角度来说，集群中的结点由一个 NameNode 和若干个 DataNode 组成, 另有一个 Secondary NameNode 作为 NameNode 的备份。
从分布式应用的角度来说，集群中的结点由一个 JobTracker 和若干个 TaskTracker 组成，JobTracker 负责任务的调度，TaskTracker 负责并行执行任务。
TaskTracker 必须运行在 DataNode 上，这样便于数据的本地计算。JobTracker 和 NameNode 则无须在同一台机器上。
伪分布模式安装步骤：
1.解压到某目录下并设置JAVA_HOME。
2.修改配置文件：
a)修改conf/core-site.xml：

fs.default.name
hdfs://localhost:9000

b)修改conf/mapred-site.xml:

mapred.job.tracker
localhost:9001

c)修改conf/hdfs-site.xml:

dfs.replication
1

＃参数 fs.default.name 指定 NameNode 的 IP 地址和端口号。缺省值是 file:///, 表示使用本地文件系统, 用于单机非分布式模式。此处我们指定使用运行于本机 localhost 上的 NameNode。
＃参数 mapred.job.tracker 指定 JobTracker 的 IP 地址和端口号。缺省值是 local, 表示在本地同一 Java 进程内执行 JobTracker 和 TaskTracker, 用于单机非分布式模式。此处我们指定使用运行于本机 localhost 上的 JobTracker ( 用一个单独的 Java 进程做 JobTracker )。
＃参数 dfs.replication 指定 HDFS 中每个 Block 被复制的次数，起数据冗余备份的作用。在典型的生产系统中，这个数常常设置为3。

Hadoop中单机模式和伪分布式的区别是什么什么是伪分布式（hadoop中遇到的）

Hadoop中单机模式和伪分布式的区别是什么

什么是伪分布式？（hadoop中遇到的）

Hadoop的伪分布模式和完全分布模式有什么区别？在具体执行上有什么区别？

什么叫hadoop伪分布，是一台主机里有虚拟机这样

最新文章

随便看看

Hadoop中单机模式和伪分布式的区别是什么 什么是伪分布式（hadoop中遇到的）

Hadoop中单机模式和伪分布式的区别是什么

什么是伪分布式？（hadoop中遇到的）

Hadoop的伪分布模式和完全分布模式有什么区别？在具体执行上有什么区别？

什么叫hadoop伪分布 ，是一台主机里有虚拟机这样

最新文章

随便看看

Hadoop中单机模式和伪分布式的区别是什么什么是伪分布式（hadoop中遇到的）

什么叫hadoop伪分布，是一台主机里有虚拟机这样