当前位置:首页>开发>正文

能简述下hadoop的主要组件吗 spark技术栈有哪些组件

2023-04-14 05:43:12 互联网 未知 开发

 能简述下hadoop的主要组件吗 spark技术栈有哪些组件

能简述下hadoop的主要组件吗

目前开源hadoop只包含hdfs,mr,和yarn,yarn是hadoop2新增组件。
hdfs是hadoop分布式文件系统,主要采用多备份方式存储文件,可以对接hive和hbase等产品并存储对应数据。
mapreduce是大数据处理并行框架,用户可以编写自己的程序调用mr框架并行的处理大数据,在调用过程中可以调整m和r的数目。不过总的来说编程相对复杂,因此诞生了hive.
yarn作为新生控件,主要管理hadoop各个模块运行过程中的任务调度,目前主要有公平调度与容量调度两种模型.

如果需要其他组件,需要单独下载安装。

spark技术栈有哪些组件

当下Hadoop的主要应用场景在归档、搜索引擎(老本家)及数据仓库上面,各个机构使用Hadoop不同的组件来实现自己的用例。而在这3个场景之外还有一个比较冷门的场景——流处理,这块源于Hadoop 2.0可结合其他框架的特性,而在将来,Hadoop肯定会发展到联机数据处理。