hadoop与数据科学

网友投稿 389 2022-11-19

hadoop与数据科学

apache hadoop是一个开源且基于Java的分布式计算平台。其构建初衷就是为了扩展搜索索引。

容错是Hadoop自成立以来一直秉持的核心原则之一。

hadoop里的核心技术自2005年第一次提交以来已大大扩展,但核心部分只有少数的几个:

分布式文件系统

资源管理器和调度器

分布式数据处理框架

调度和资源管理是任何良好的分布式系统的关键。因此,Hadoop有一个组件可以指导计算资源分配并以最有效的方式调度用户应用程序。这个组件叫yarn(Yet Another Resource Negotiator)

apache nutch是一款开源搜索引擎软件。

数据科学家都会有一套工具来完成他们熟悉的工作,包括数据摄取、数据质量分析和清理、脚本编写、统计计算、分布式计算和可视化。

apache sqoop工具专为hadoop和结构化数据存储(如关系数据库或NoSQL数据库)之间的高效批量数据传输而设计。

使用sqoop版本1可以将数据从外部系统导入到HDFS中,也能导入hive和hbase的表中。

sqoop使用基于连接器的架构,这种架构也是支持插件的。

sqoop配有通用数据库系统(MySQL、postgresql、Oracle、SQL server和db2)的连接器。

sqoop将需要转移到分区的每个数据集切片,并为每个此类分区启动一个map作业,以将此数据传输到其目标位置。

apache flume 是一种分布式、可靠和可用的服务,主要用于从服务器高效收集、聚合并移动大量日志数据到哦hdfs。

flume是稳健的,也能容错,因为flume具有灵活的可靠性机制以及许多故障转移和恢复机制

使用flume时,至少需要两个flume代理(每个代理都有自己的源和汇聚点位置),一个用于源,一个用于收集器。flume也可能有多个来源,多个flume代理可能被流水线化。

hadoop集群上运行的收集器代理将收到源数据并将其写入hdfs。

每个工具涵盖了各种级别的数据移动、数据感到协调、生命周期管理和数据发现。

falcon使终端消费者能够快速地在hadoop集群上嵌入数据,并能做相关的处理、管理任务。

pig具有用户自定义函数的功能来扩展其功能。

hivemall是hive自定义的函数集合一样,pig也有类似的工具集。

apache Dataful是一组pig用户自定义的函数,其目的是提供一些工具,使hadoop平台上的数据科学任务更加便捷。

dataful支持描述性统计,如计算分位数、中位数和方差。

R是用于数据操作、计算、统计分析和图形显示的开源语言和环境。

R通常是开发新的交互式数据分析方法的第一个工具。

R语言式建模和可视化最常用的工具之一。

详细请参考《数据科学与大数据技术导论([美]凯西·斯特拉)》

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:基于DSP芯片TMS320C6713实现语音采集系统的设计
下一篇:高可用hadoop出现Operation category READ is not supported in state standby解决方法
相关文章

 发表评论

暂时没有评论,来抢沙发吧~