大数据之脚踏实地学11--Spark神器的安装

网友投稿 297 2022-08-31

前言

在《大数据之脚踏实地学10--Hive独立式安装》一文中我们已经介绍了Hive工具的安装流程，基于Hive可以轻松的在Hadoop集群内实现SQL语句的落地。如果没有她，数据的管理操作都要通过编写Java代码，运行Map-Reduce，那将是一件非常头疼的事。

在本期中，我们将继续安装另一件大数据神器，那就是Spark，它是一款专用于数据运算的引擎，它可以更好地适用于数据挖掘与机器学习等需要迭代的Map-Reduce的算法，并且它基于内存的运算，要比Hadoop高效很多。

安装Scala

由于Spark 是在 Scala 语言中实现的，并且其将 Scala 用作应用程序的框架，所以，在安装Spark之前，必须安装它的依赖，即 Scala软件。安装过程很简单，即解压、配置环境变量（注意，Scala在Master机器和Slave机器中都需要安装）。

下载Scala软件

前往Scala的官网（-xzf scala-2.12.8.tgz

mv scala-2.12.8 scala

配置环境变量

vim /etc/profile

source /etc/profile

输入scala命令，如果出现下图中的结果，就说明你已成功安装scala软件。

安装Spark

安装Spark的过程与安装Scala很像，操作步骤也非常的简单，具体如下：

下载Spark软件

前往Spark的官网（-xzf spark-2.4.0-bin-hadoop2.7.tgz

mv spark-2.4.0-bin-hadoop2.7 spark

配置文件

配置环境变量：vim /etc/profile

刷新环境变量：source /etc/profile

配置spark-env.sh文件

将目录切换到spark下的conf目录，即/opt/SoftWare/spark/conf，然后将spark-env.sh.template文件拷贝为spark-env.sh，然后利用vim命令，往文件末尾添加如下内容：

cp spark-env.sh.template spark-env.sh

vim spark-env.sh

配置slaves文件

将slaves.template文件重新拷贝为slaves，然后利用vim命令，进入文件，将最后一行的localhost删除，并往文件末尾添加如下内容：

到目前为止，Spark的安装和配置就算完成了，接下来我们去启动并验证Spark（需要注意的是，启动前需要启动HDFS和YARN，因为基于Spark分析的数据还都存储在HDFS中）。

启动Spark

启动HDFS和YARN只需要在Master机器中执行如下两条命令，并通过jps查看启动的进程：

start-dfs.sh

start-yarn.sh

jps

启动Spark，需要先将目录切换到spark的sbin下，然后仅在Master机器中执行./start-all.sh命令。为验证是否成功启动，可以输入jps命令，结果如下：

从上图可知，master机器中多了Master进程，slave1和slave2机器中多了Worker进程，说明Spark已成功启动。最后，我们通过网页端，也能够发现Spark已启动，只需要在浏览器中输入master:8080

最后，我们再启动Spark的Shell（它是执行Spark代码的交互式环境，类似于Linux的终端），命令为spark-shell，看一看它长啥样子：

如上图所示，你会发现，在启动Spark的交互式窗口后，命令行的前缀是scala>，说明接下来等待你输入的是Scala语句。

结语

每天进步一点点：数据分析1480

长按扫码关注我

标签：工具

暂时没有评论，来抢沙发吧~

大数据之脚踏实地学11--Spark神器的安装

linux cpu占用率如何看

宝塔数据库如何清理缓存

oracle怎么创建存储过程

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）