当前位置:首页>开发>正文

安装hadoop时的问题,HDFS文件系统格式化出现问题,求高手指点! 什么是Hadoop分布式文件系统

2023-07-30 17:12:13 互联网 未知 开发

 安装hadoop时的问题,HDFS文件系统格式化出现问题,求高手指点! 什么是Hadoop分布式文件系统

安装hadoop时的问题,HDFS文件系统格式化出现问题,求高手指点!

1 用root用户安装jdk1.6以上
2 用root用户 创建hadoop用户
3 在hadoop用户下安装hadoop
安装Hadoop,版本随意
然后配置Hadoop,需要修改hadoop的配置文件,它们位于conf子目录下,分别是hadoop-env.sh、core-site.xml、hdfs-site.xml 和mapred-site.xml
4 修改/home/hadoop/.bash_profile将JDK和hadoop的环境变量设置好
5 安装ssh(伪集群也需要ssh)

什么是Hadoop分布式文件系统

分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。

Hadoop是Apache软件基金会所研发的开放源码并行运算编程工具和分散式档案系统,与MapReduce和Google档案系统的概念类似。
HDFS(Hadoop 分布式文件系统)是其中的一部分。

hadoop分布式文件系统具有怎样的特性

硬件错误
硬件错误是常态而不是异常。HDFS可能由成百上千的服务器所构成,每个服务器上存储着文件系统的部分数据。我们面对的现实是构成系统的组件数目是巨大的,而且任一组件都有可能失效,这意味着总是有一部分HDFS的组件是不工作的。因此错误检测和快速、自动的恢复是HDFS最核心的架构目标。
流式数据访问
运行在HDFS上的应用和普通的应用不同,需要流式访问它们的数据集。HDFS的设计中更多的考虑到了数据批处理,而不是用户交互处理。比之数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。POSIX标准设置的很多硬性约束对HDFS应用系统不是必需的。为了提高数据的吞吐量,在一些关键方面对POSIX的语义做了一些修改。
大规模数据集
运行在HDFS上的应用具有很大的数据集。HDFS上的一个典型文件大小一般都在G字节至T字节。因此,HDFS被调节以支持大文件存储。它应该能提供整体上高的数据传输带宽,能在一个集群里扩展到数百个节点。一个单一的HDFS实例应该能支撑数以千万计的文件。
简单的一致性模型
HDFS应用需要一个“一次写入多次读取”的文件访问模型。一个文件经过创建、写入和关闭之后就不需要改变。这一假设简化了数据一致性问题,并且使高吞吐量的数据访问成为可能。Map/Reduce应用或者网络爬虫应用都非常适合这个模型。目前还有计划在将来扩充这个模型,使之支持文件的附加写操作。
“移动计算比移动数据更划算”
一个应用请求的计算,离它操作的数据越近就越高效,在数据达到海量级别的时候更是如此。因为这样就能降低网络阻塞的影响,提高系统数据的吞吐量。将计算移动到数据附近,比之将数据移动到应用所在显然更好。HDFS为应用提供了将它们自己移动到数据附近的接口。
异构软硬件平台间的可移植性
HDFS在设计的时候就考虑到平台的可移植性。这种特性方便了HDFS作为大规模数据应用平台的推广。

格式化文件系统FAT32、exFAT和NTFS区别

fat32 是比较老的文件格式,不支持2G以上的文件 ,性能相对NTFS也会慢一点 相对FAT文件系统,exFAT有如下好处: 增强了台式电脑与移动设备的互操作能力 单文件大小最大可达16EB(2 305 843 009 213 693 952字节,就是(理论值,16×1024×1024TB),1TB=1024G) 簇大小可高达32MB 采用了剩余空间分配表,剩余空间分配性能改进 同一目录下最大文件数可达65 536个 支持访问控制 支持TFAT 采用该文件系统的闪存盘不支持Windows Vista ReadyBoost。Windows Vista SP1支持该文件系统。 请注意:exFAT只是一个折中的方案,只为U盘而生。 NTFS是现在最常用,想能相对前两个也是最好的 追问: 支持WIN7么? 我如果给U盘格式化8G的 是不是EXFAT比较好?》

记得采纳啊

最新文章