【任务实施】_Spark分布式处理实战-QQ阅读男生科幻网

上QQ阅读APP看书，第一时间看更新

因为Spark主要基于Scala语言开发，所以在安装Spark之前，首先要安装Scala。主要的安装过程如下。

（1）将Scala安装包上传到指定目录/opt/module/soft，上传完成后，切换到安装目录。

[hadoop@hadoop1 ～]$ cd /opt/module/soft

（2）将安装包解压缩到安装目录/opt/module。

[hadoop@hadoop1 soft]$ tar -zxvf scala-2.12.11.tgz -C /opt/module

（3）默认安装的目录名scala-2.12.11较长，可以将目录名改为scala。

[hadoop@hadoop1 soft]$ mv /opt/module/scala-2.12.11/ /opt/module/scala

（4）编辑/etc/profile文件，修改环境变量，在PATH变量中添加Scala安装路径下面的bin目录，这样就可以在任意的目录下执行该文件夹下面的命令。

[hadoop@hadoop1 soft]$ sudo vi /etc/profile

#scala
export SCALA_HOME=/opt/module/scala
export PATH=$PATH:$SCALA_HOME/bin

（5）环境变量编辑完成后，为使得环境变量立即生效，需要使用source命令刷新文件。

[hadoop@hadoop1 soft]$ source /etc/profile

（6）安装完成后，验证Scala环境能否正常使用。输入scala命令，进入Scala的命令行模式，输入scala命令进行验证。如果能够正常运行，说明Scala已经正常安装。

[hadoop@hadoop1 soft]$ scala

在Scala软件安装完成以后，就可以安装Spark了。

（1）从官方网站下载正确的安装版本。访问Apache网站并下载Spark。本书开发的案例基于Spark 3.0。由于Spark安装版本和Hadoop相关，因此在选择Spark的版本时要考虑集群环境中Hadoop的安装版本。

Spark的下载目录如图1-5所示。选择spark-3.0.0进行下载。单击相应的文件夹链接，查看并选择相应的版本进行下载，如图1-6所示。

图1-5　Spark下载目录

图1-6　Spark 3.0.0下载页面

（2）将压缩包上传到服务器指定文件夹/opt/soft。如果文件夹不存在，可以先创建这个文件夹。将Spark安装文件解压缩到指定文件夹后安装。

[hadoop@hadoop1 ~]$ tar -zxvf /opt/soft/spark-3.0.0-bin-hadoop2.7.tgz -C /opt/module

（3）解压缩后的文件夹名称为spark-3.0.0-bin-hadoop2.7，因为这个名称比较长，可以对文件夹进行改名，使用mv命令修改文件夹名称为spark。

[hadoop@hadoop1 ~]$ mv /opt/module/spark-3.0.0-bin-hadoop2.7/ /opt/module/spark

（4）编辑文件/etc/profile，修改环境变量。在PATH变量中添加Spark安装路径下面的bin目录和sbin目录，这样就可以在任意的目录下执行这两个文件夹下面的命令。

[hadoop@hadoop1 ~]$ vi /etc/profile
# spark
export SPARK_HOME=/opt/module/spark
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

（5）环境变量编辑完成后，为使得环境变量立即生效，需要使用source命令刷新文件。

[hadoop@hadoop1 ~]$ source /etc/profile