(7) Hadoop HDFS框架详解 1-APISpace

(7) Hadoop HDFS框架详解 1

（1）HDFS 源自于Google的GFS论文

*发表于2003年10月

*HDFS是GFS的克隆版

（2）Hadoop Distributed File System

*易于扩展的分布式文件系统

*运行在大量普通连接机器上，提供容错机制

*为大量用户提供性能不错的文件存取服务

(3) NameNode

*namenode 是一个中心服务器，节点单一（简化系统的设计和实现），负责管理文件系统的名字空间（namespace）以及客户端对文件的访问

*文件操作，namenode负责文件元数据的操作，datanode负责处理文件内容的读写请求，与文件内容相关的数据流不经过namenode,只会询问它跟哪个datanode联系，否则namenode会成文系统的瓶颈

*副本存放在那些datanode是由namenode来控制的，根据全局情况作出块放置决定，读取文件时namenode尽量让用户先读取最近的副本，降低带块消耗和读取时延

*namenode全权管理数据块的复制，它周期性的从集群中的每个datamode接受心跳信号和块状态报告。接受到心跳信号意味着该datanode节点正常工作。块状态包含一个该datanode上所有数据块列表

(4)DataNode

*一个数据块在DataNode以文件存储在磁盘，包括2个文件，一个是数据本身，一个是元数据包括数据块长度，数据块的校验和，以及时间戳

*DataNode启动后会像NameNode注册，通过后，周期性（1小时）的想NameNode上报所有的块信息

*心跳是每3秒一次，心跳返回结果带有namenode给该DataNode的命令，如复制数据块到另一台机器，或删除某个数据块，如果超过10分钟没有收到某个DataNode的心跳，则认为这个节点不可用

*集群运行中可以安全的加入和退出一些机器

（5）文件

*文件切分成块（默认大小128M），以块为单位，每个块有多个副本存储在不同的机器上，副本数可以再文件生成是指定（默认3）

*NameNode 是主节点，存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表以及块所在的DataNode等

*DataNode在本地文件系统存储文件块数据，以及块数据的校验和

*可以创建、删除、移除或重命名文件，当文件创建、写入和关闭之后不能修改文件内容。

(6)数据损坏（corruption）处理

*当DataNode读取block的时候，它会计算checksum

*如果计算后的checksum，与block创建时的不一样，说明block已经损坏

*client读取其他DataNode上的block

* NameNode标记该块已经损坏，然后复制到block达到预期设置的文件备份数

*DataNode在其文件创建后三周验证其checksum

c语言sscanf函数的用法是什么

326 2022-11-25

(7) Hadoop HDFS框架详解 1

c语言sscanf函数的用法是什么

linux怎么查看本机内存大小

linux cpu占用率如何看

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）

(7) Hadoop HDFS框架 详解 1

推荐文章

最近发表

热评文章

(7) Hadoop HDFS框架详解 1