linux cpu占用率如何看
297
2022-08-31
大数据之脚踏实地学11--Spark神器的安装
前言
在《大数据之脚踏实地学10--Hive独立式安装》一文中我们已经介绍了Hive工具的安装流程,基于Hive可以轻松的在Hadoop集群内实现SQL语句的落地。如果没有她,数据的管理操作都要通过编写Java代码,运行Map-Reduce,那将是一件非常头疼的事。
在本期中,我们将继续安装另一件大数据神器,那就是Spark,它是一款专用于数据运算的引擎,它可以更好地适用于数据挖掘与机器学习等需要迭代的Map-Reduce的算法,并且它基于内存的运算,要比Hadoop高效很多。
安装Scala
由于Spark 是在 Scala 语言中实现的,并且其将 Scala 用作应用程序的框架,所以,在安装Spark之前,必须安装它的依赖,即 Scala软件。安装过程很简单,即解压、配置环境变量(注意,Scala在Master机器和Slave机器中都需要安装)。
下载Scala软件
前往Scala的官网(-xzf scala-2.12.8.tgz
mv scala-2.12.8 scala
配置环境变量
vim /etc/profile
source /etc/profile
输入scala命令,如果出现下图中的结果,就说明你已成功安装scala软件。
安装Spark
安装Spark的过程与安装Scala很像,操作步骤也非常的简单,具体如下:
下载Spark软件
前往Spark的官网(-xzf spark-2.4.0-bin-hadoop2.7.tgz
mv spark-2.4.0-bin-hadoop2.7 spark
配置文件
配置环境变量:vim /etc/profile
刷新环境变量:source /etc/profile
配置spark-env.sh文件
将目录切换到spark下的conf目录,即/opt/SoftWare/spark/conf,然后将spark-env.sh.template文件拷贝为spark-env.sh,然后利用vim命令,往文件末尾添加如下内容:
cp spark-env.sh.template spark-env.sh
vim spark-env.sh
配置slaves文件
将slaves.template文件重新拷贝为slaves,然后利用vim命令,进入文件,将最后一行的localhost删除,并往文件末尾添加如下内容:
到目前为止,Spark的安装和配置就算完成了,接下来我们去启动并验证Spark(需要注意的是,启动前需要启动HDFS和YARN,因为基于Spark分析的数据还都存储在HDFS中)。
启动Spark
启动HDFS和YARN只需要在Master机器中执行如下两条命令,并通过jps查看启动的进程:
start-dfs.sh
start-yarn.sh
jps
启动Spark,需要先将目录切换到spark的sbin下,然后仅在Master机器中执行./start-all.sh命令。为验证是否成功启动,可以输入jps命令,结果如下:
从上图可知,master机器中多了Master进程,slave1和slave2机器中多了Worker进程,说明Spark已成功启动。最后,我们通过网页端,也能够发现Spark已启动,只需要在浏览器中输入master:8080
最后,我们再启动Spark的Shell(它是执行Spark代码的交互式环境,类似于Linux的终端),命令为spark-shell,看一看它长啥样子:
如上图所示,你会发现,在启动Spark的交互式窗口后,命令行的前缀是scala>,说明接下来等待你输入的是Scala语句。
结语
每天进步一点点:数据分析1480
长按扫码关注我
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~