当前位置：首页>开发>正文

hadoop的优化与发展如何对hadoop平台进行优化和维护

2023-04-09 23:41:54 互联网未知开发

如何对hadoop平台进行优化和维护

（1）从应用程序角度进行优化。由于mapreduce是迭代逐行解析数据文件的，怎样在迭代的情况下，编写高效率的应用程序，是一种优化思路。
（2）对Hadoop参数进行调优。当前hadoop系统有190多个配置参数，怎样调整这些参数，使hadoop作业运行尽可能的快，也是一种优化思路。
（3）从系统实现角度进行优化。这种优化难度是最大的，它是从hadoop实现机制角度，发现当前Hadoop设计和实现上的缺点，然后进行源码级地修改。该方法虽难度大，但往往效果明显。

hadoop的优点有哪些 a处理超大文件 b低延迟访问数据

一、 Hadoop 特点
1、支持超大文件
一般来说，HDFS存储的文件可以支持TB和PB级别的数据。
2、检测和快速应对硬件故障
在集群环境中，硬件故障是常见性问题。因为有上千台服务器连在一起，故障率高，因此故障检测和自动恢复hdfs文件系统的一个设计目标。假设某一个datanode节点挂掉之后，因为数据备份，还可以从其他节点里找到。namenode通过心跳机制来检测datanode是否还存在
3、流式数据访问
HDFS的数据处理规模比较大，应用一次需要大量的数据，同时这些应用一般都是批量处理，而不是用户交互式处理，应用程序能以流的形式访问数据库。主要的是数据的吞吐量，而不是访问速度。访问速度最终是要受制于网络和磁盘的速度，机器节点再多，也不能突破物理的局限，HDFS不适合于低延迟的数据访问，HDFS的是高吞吐量。
4、简化的一致性模型
对于外部使用用户，不需要了解hadoop底层细节，比如文件的切块，文件的存储，节点的管理。
一个文件存储在HDFS上后，适合一次写入，多次写出的场景once-write-read-many。因为存储在HDFS上的文件都是超大文件，当上传完这个文件到hadoop集群后，会进行文件切块，分发，复制等操作。如果文件被修改，会导致重新出发这个过程，而这个过程耗时是最长的。所以在hadoop里，不允许对上传到HDFS上文件做修改（随机写），在2.0版本时可以在后面追加数据。但不建议。
5、高容错性
数据自动保存多个副本，副本丢失后自动恢复。可构建在廉价机上，实现线性（横向）扩展，当集群增加新节点之后，namenode也可以感知，将数据分发和备份到相应的节点上。
6、商用硬件
Hadoop并不需要运行在昂贵且高可靠的硬件上，它是设计运行在商用硬件的集群上的，因此至少对于庞大的集群来说，节点故障的几率还是非常高的。HDFS遇到上述故障时，被设计成能够继续运行且不让用户察觉到明显的中断。
二、HDFS缺点
1、不能做到低延迟
由于hadoop针对高数据吞吐量做了优化，牺牲了获取数据的延迟，所以对于低延迟数据访问，不适合hadoop，对于低延迟的访问需求，HBase是更好的选择，
2、不适合大量的小文件存储
由于namenode将文件系统的元数据存储在内存中，因此该文件系统所能存储的文件总数受限于namenode的内存容量，根据经验，每个文件、目录和数据块的存储信息大约占150字节。因此，如果大量的小文件存储，每个小文件会占一个数据块，会使用大量的内存，有可能超过当前硬件的能力。
3、不适合多用户写入文件，修改文件
Hadoop2.0虽然支持文件的追加功能，但是还是不建议对HDFS上的文件进行修改，因为效率低。
对于上传到HDFS上的文件，不支持修改文件，HDFS适合一次写入，多次读取的场景。
HDFS不支持多用户同时执行写操作，即同一时间，只能有一个用户执行写操作。

hadoop 框架中怎么来优化

Storm用于处理高速、大型数据流的分布式实时计算系统。为Hadoop添加了可靠的实时数据处理功能
Spark采用了内存计算。从多迭代批处理出发，允许将数据载入内存作反复查询，此外还融合数据仓库，流处理和图形计算等多种计算范式。Spark构建在HDFS上，能与Hadoop很好的结合。它的RDD是一个很大的特点。
Hadoop当前大数据管理标准之一，运用在当前很多商业应用系统。可以轻松地集成结构化、半结构化甚至非结构化数据集。

hadoop的优化与发展如何对hadoop平台进行优化和维护

如何对hadoop平台进行优化和维护

hadoop的优点有哪些 a处理超大文件 b低延迟访问数据

hadoop 框架中怎么来优化

最新文章

随便看看

hadoop的优化与发展 如何对hadoop平台进行优化和维护

如何对hadoop平台进行优化和维护

hadoop的优点有哪些 a处理超大文件 b低延迟访问数据

hadoop 框架中怎么来优化

最新文章

随便看看

hadoop的优化与发展如何对hadoop平台进行优化和维护