(7) Hadoop HDFS框架 详解 1

网友投稿 326 2022-11-25

(7) Hadoop HDFS框架 详解 1

(1)HDFS 源自于Google的GFS论文

*发表于2003年10月

*HDFS是GFS的克隆版

(2)Hadoop Distributed File System

*易于扩展的分布式文件系统

*运行在大量普通连接机器上,提供容错机制

*为大量用户提供性能不错的文件存取服务

(3) NameNode

*namenode 是一个中心服务器,节点单一(简化系统的设计和实现),负责管理文件系统的名字空间(namespace)以及客户端对文件的访问

*文件操作,namenode负责文件元数据的操作,datanode负责处理文件内容的读写请求,与文件内容相关的数据流不经过namenode,只会询问它跟哪个datanode联系,否则namenode会成文系统的瓶颈

*副本存放在那些datanode是由namenode来控制的,根据全局情况作出块放置决定,读取文件时namenode尽量让用户先读取最近的副本,降低带块消耗和读取时延

*namenode全权管理数据块的复制,它周期性的从集群中的每个datamode接受心跳信号和块状态报告。接受到心跳信号意味着该datanode节点正常工作。块状态包含一个该datanode上所有数据块列表

(4)DataNode

*一个数据块在DataNode以文件存储在磁盘,包括2个文件,一个是数据本身,一个是元数据包括数据块长度,数据块的校验和,以及时间戳

*DataNode启动后会像NameNode注册,通过后,周期性(1小时)的想NameNode上报所有的块信息

*心跳是每3秒一次,心跳返回结果带有namenode给该DataNode的命令,如复制数据块到另一台机器,或删除某个数据块,如果超过10分钟没有收到某个DataNode的心跳,则认为这个节点不可用

*集群运行中可以安全的加入和退出一些机器

(5)文件

*文件切分成块(默认大小128M),以块为单位,每个块有多个副本存储在不同的机器上,副本数可以再文件生成是指定(默认3)

*NameNode 是主节点,存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表以及块所在的DataNode等

*DataNode在本地文件系统存储文件块数据,以及块数据的校验和

*可以创建、删除、移除或重命名文件,当文件创建、写入和关闭之后不能修改文件内容。

(6)数据损坏(corruption)处理

*当DataNode读取block的时候,它会计算checksum

*如果计算后的checksum,与block创建时的不一样,说明block已经损坏

*client读取其他DataNode上的block

* NameNode标记该块已经损坏,然后复制到block达到预期设置的文件备份数

*DataNode在其文件创建后三周验证其checksum

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:(8) Hadoop Linux 开发环境准备
下一篇:泰芯半导体研发的SoC芯片内部集成的PA调制信号发射功率高达17db?
相关文章

 发表评论

暂时没有评论,来抢沙发吧~