c语言sscanf函数的用法是什么
326
2022-11-25
(7) Hadoop HDFS框架 详解 1
(1)HDFS 源自于Google的GFS论文
*发表于2003年10月
*HDFS是GFS的克隆版
(2)Hadoop Distributed File System
*易于扩展的分布式文件系统
*运行在大量普通连接机器上,提供容错机制
*为大量用户提供性能不错的文件存取服务
(3) NameNode
*namenode 是一个中心服务器,节点单一(简化系统的设计和实现),负责管理文件系统的名字空间(namespace)以及客户端对文件的访问
*文件操作,namenode负责文件元数据的操作,datanode负责处理文件内容的读写请求,与文件内容相关的数据流不经过namenode,只会询问它跟哪个datanode联系,否则namenode会成文系统的瓶颈
*副本存放在那些datanode是由namenode来控制的,根据全局情况作出块放置决定,读取文件时namenode尽量让用户先读取最近的副本,降低带块消耗和读取时延
*namenode全权管理数据块的复制,它周期性的从集群中的每个datamode接受心跳信号和块状态报告。接受到心跳信号意味着该datanode节点正常工作。块状态包含一个该datanode上所有数据块列表
(4)DataNode
*一个数据块在DataNode以文件存储在磁盘,包括2个文件,一个是数据本身,一个是元数据包括数据块长度,数据块的校验和,以及时间戳
*DataNode启动后会像NameNode注册,通过后,周期性(1小时)的想NameNode上报所有的块信息
*心跳是每3秒一次,心跳返回结果带有namenode给该DataNode的命令,如复制数据块到另一台机器,或删除某个数据块,如果超过10分钟没有收到某个DataNode的心跳,则认为这个节点不可用
*集群运行中可以安全的加入和退出一些机器
(5)文件
*文件切分成块(默认大小128M),以块为单位,每个块有多个副本存储在不同的机器上,副本数可以再文件生成是指定(默认3)
*NameNode 是主节点,存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表以及块所在的DataNode等
*DataNode在本地文件系统存储文件块数据,以及块数据的校验和
*可以创建、删除、移除或重命名文件,当文件创建、写入和关闭之后不能修改文件内容。
(6)数据损坏(corruption)处理
*当DataNode读取block的时候,它会计算checksum
*如果计算后的checksum,与block创建时的不一样,说明block已经损坏
*client读取其他DataNode上的block
* NameNode标记该块已经损坏,然后复制到block达到预期设置的文件备份数
*DataNode在其文件创建后三周验证其checksum
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~