hadoop与数据科学-APISpace

hadoop与数据科学

apache hadoop是一个开源且基于Java的分布式计算平台。其构建初衷就是为了扩展搜索索引。

容错是Hadoop自成立以来一直秉持的核心原则之一。

hadoop里的核心技术自2005年第一次提交以来已大大扩展，但核心部分只有少数的几个：

分布式文件系统

资源管理器和调度器

分布式数据处理框架

调度和资源管理是任何良好的分布式系统的关键。因此，Hadoop有一个组件可以指导计算资源分配并以最有效的方式调度用户应用程序。这个组件叫yarn（Yet Another Resource Negotiator）

apache nutch是一款开源搜索引擎软件。

数据科学家都会有一套工具来完成他们熟悉的工作，包括数据摄取、数据质量分析和清理、脚本编写、统计计算、分布式计算和可视化。

apache sqoop工具专为hadoop和结构化数据存储（如关系数据库或NoSQL数据库）之间的高效批量数据传输而设计。

使用sqoop版本1可以将数据从外部系统导入到HDFS中，也能导入hive和hbase的表中。

sqoop使用基于连接器的架构，这种架构也是支持插件的。

sqoop配有通用数据库系统（MySQL、postgresql、Oracle、SQL server和db2）的连接器。

sqoop将需要转移到分区的每个数据集切片，并为每个此类分区启动一个map作业，以将此数据传输到其目标位置。

apache flume 是一种分布式、可靠和可用的服务，主要用于从服务器高效收集、聚合并移动大量日志数据到哦hdfs。

flume是稳健的，也能容错，因为flume具有灵活的可靠性机制以及许多故障转移和恢复机制

使用flume时，至少需要两个flume代理（每个代理都有自己的源和汇聚点位置），一个用于源，一个用于收集器。flume也可能有多个来源，多个flume代理可能被流水线化。

hadoop集群上运行的收集器代理将收到源数据并将其写入hdfs。

每个工具涵盖了各种级别的数据移动、数据感到协调、生命周期管理和数据发现。

falcon使终端消费者能够快速地在hadoop集群上嵌入数据，并能做相关的处理、管理任务。

pig具有用户自定义函数的功能来扩展其功能。

hivemall是hive自定义的函数集合一样，pig也有类似的工具集。

apache Dataful是一组pig用户自定义的函数，其目的是提供一些工具，使hadoop平台上的数据科学任务更加便捷。

dataful支持描述性统计，如计算分位数、中位数和方差。

R是用于数据操作、计算、统计分析和图形显示的开源语言和环境。

R通常是开发新的交互式数据分析方法的第一个工具。

R语言式建模和可视化最常用的工具之一。

详细请参考《数据科学与大数据技术导论（[美]凯西·斯特拉）》

c语言sscanf函数的用法是什么

389 2022-11-19

hadoop与数据科学

c语言sscanf函数的用法是什么

linux怎么查看本机内存大小

linux cpu占用率如何看

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）