步骤1.在运行下面的教程之前,重要的是通过apt
在终端中运行以下命令来确保系统是最新的:
sudo apt update
步骤2.安装Java。
Apache Spark需要Java才能运行,确保我们在Debian系统上安装了Java:
sudo apt install default-jdk
使用以下命令验证Java版本:
java -version
步骤3.安装Scala。
现在,我们在Debian系统上安装Scala软件包:
sudo apt install scala
检查Scala的版本:
scala -version
步骤4.在Debian上安装Apache Spark。
现在我们可以下载Apache Spark二进制文件:
wget https://www.apache.org/dyn/closer.lua/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
接下来,提取Spark tarball:
tar xvf spark-3.1.1-bin-hadoop2.7.tgz sudo mv spark-3.1.1-bin-hadoop2.7/ /opt/spark
完成后,设置Spark环境:
nano ~/.bashrc
在文件末尾,添加以下行:
export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
保存更改并关闭编辑器。要应用更改,请运行:
source ~/.bashrc
现在,使用以下命令启动Apache Spark,其中之一是集群的主服务器:
start-master.sh
要查看Spark Web用户界面如下所示,请打开Web浏览器并在端口8080上输入localhost IP地址:
http://127.0.0.1:8080/
在这种单服务器独立设置中,我们将与主服务器一起启动一个从服务器。该命令用于启动Spark Worker进程:start-slave.sh
start-slave.sh spark://ubuntu1:7077
现在工作人员已经启动并正在运行,如果您重新加载Spark Master的Web UI,您应该在列表上看到它:
完成配置后,启动主服务器和从属服务器,测试Spark Shell是否正常工作:
spark-shell
恭喜你!您已经成功安装了Spark。感谢您使用本教程在Debian系统上安装最新版本的Apache Spark。有关其他帮助或有用信息,建议您查看Apache Spark官方网站。
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun42724.html