上QQ阅读APP看书,第一时间看更新
六、HDFS云存储技术
Hadoop分布式文件系统(Hadoop distributed fle system,HDFS)是一个高度容错性并且被设计成适合运行在通用硬件上的系统,负责数据分布式存储和数据的管理,并提供高吞吐量的数据访问,适合大规模数据集应用。
HDFS最初作为Apache Nutch搜索引擎项目的基础架构而开发,是Apache Hadoop Core项目的一部分。HDFS由一个主节点Name Node和多个子节点Data Node组成,是一种典型主从式(master/slave)架构,可通过主节点屏蔽底层复杂结构,并向Client提供方便的文件目录映射。Name Node存储着文件系统的元数据,这些元数据包括文件系统的名字空间等,但实际的数据则由HDFS中的Data Node存放。
HDFS以分块序列形式对每一个文件进行存储,除最后一个分块外一个文件的所有分块都是等大小的,为实现容错将文件分块进行自动复制。文件分块的块大小和复制比例可按照单个文件进行配置,HDFS中的所有文件都是只写一次并严格限定在任何时间只有一个写文件操作。同时HDFS放宽了部分移植操作系统接口(portable operating system interface,POSIX)约束,实现流式读取文件系统数据目的。