当前位置:首页>开发>正文

关于hdfs的物理存储路径问题 hadoop 中文件是怎么存储的

2024-01-09 05:00:30 互联网 未知 开发

 关于hdfs的物理存储路径问题 hadoop 中文件是怎么存储的

关于hdfs的物理存储路径问题

我没用过Hive,但HDFS的存储机制都是一样的。
你所谓的物理位置指的是在操作系统中的磁盘路径?
这个路径是在Hadoop配置的时候写在hdfs-site.xml文件的dfs.datanode.data.dir字段里的,在每个datanode的这个文件夹里存着该节点上存储的所有数据块block,以blk_打头。
dfs.namenode.data.dir指定的文件夹在namenode中则存在元数据。
所以即便你知道这个所谓的物理路径也没什么用,数据都是以block形式存在的,大的数据还由好多个block组成,而且每个block还有副本。

hadoop 中文件是怎么存储的

1、存储文件的时候需要指定存储的路径,这个路径是HDFS的路径。而不是哪个节点的某个目录。比如./hadoop fs -put localfile hdfspat
一般操作的当前路径是/user/hadoop比如执行./hadoop fs -ls .实际上就相当于./hadoop fs -ls /user/hadoop
2、HDFS本身就是一个文件系统,在使用的时候其实不用关心具体的文件是存储在哪个节点上的。如果需要查询可以通过页面来查看,也可以通过API来实现查询。

什么是hadoop hive2区分

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
[1] Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。[2]
hive是Hadoop的一个组件,作为数据厂库,hive的数据是存储在Hadoop的文件系统中的,hive为Hadoop提供SQL语句,是Hadoop可以通过SQL语句操作文件系统中的数据。hive是依赖Hadoop而存在的。

最新文章

随便看看