linux怎么查看本机内存大小
253
2022-11-15
Hadoop(2)-Hadoop简介
1、Hadoop是什么?
2、Hadoop发展历史
3、 Hadoop三大发行版本
Apache,Cloudera,HortonworksApache版本是最原始(最基础)的版本,对于入门学习最好,2006Cloudera内部集成了很多大数据框架,对应产品CDH,2008Hortonworks文档较好,对应产品HDP,2011Horonworks现在已经被Cloudera公司收购(2018),推出新的品牌CDPHadoop的优势
高可靠性:Hadoop底层维护多个数据副本,所以及时Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点,可以动态增加服务器高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度高容错性:能够自动将失败的任务重新分配
4、Hadoop的组成
5、HDFS 架构概述:
Hadoop Distributed File System,简称HDFS,是一个分布式文件系统NameNode(nn):存储文件的元数据,如文件名、文件目录结构、文件属性(生成时间,副本数,文件权限),以及每个文件的快列表和块所在的DateNode等,是整个文件数据的存储DateNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和,其实即每个服务器就是一个DateNode节点Seconday NameNode(2nn):每隔一段时间对 NameNode 元数据备份
6、YARN 架构概述
Yet Another Resource Negotiator ,简称YARN,另一种资源协调者,是Hadoop的资源管理器ResourceManager(RM):整个集群资源(内存,cpu等)的老大NodeManager(NM):单个节点服务器资源老大ApplicationMaster(AM):单个任务运行的老大Container:容器,相当一台独立的服务器,里面封装了任务运行所需要的的资源,如内存、cpu、磁盘、网络等说明:
7、MapReduc架构概述
MapReduce将计算过程分为两个阶段:Map和Reduce
Map阶段并行处理输入数据Reduce阶段对Map结果进行汇总大数据技术生态系统推荐系统案例
8、HDFS、YARN、MapReduce三者关系
HDFS是一个分布式文件系统YARN负责资源的调度与管理MapReduce负责计算
9、大数据技术生态体系
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~