如何在 Ubuntu 22.04 LTS 上安装 Apache Hadoop

Apache Hadoop是一个开源的,基于Java的软件平台,可用于管理和处理需要快速和可扩展数据处理的应用程序的大型数据集。它基于Java,并使用HDFS(Hadoop分布式文件系统)来存储其数据。Hadoop被设计为部署在由数百或1000多台专用服务器组成的网络中。它们一起处理和处理大量和种类繁多的数据集。Apache-Hadoop-logo

Ubuntu 22.04 LTS Jammy Jellyfish 上安装 Apache Hadoop

第 1 步。首先,通过在终端中运行以下命令,确保所有系统软件包都是最新的。apt

sudo apt update
sudo apt upgrade
sudo apt install wget apt-transport-https gnupg2 software-properties-common

第 2 步。安装 Java OpenJDK。

Apache Hadoop基于Java,因此您需要在服务器上安装Java JDK。让我们运行以下命令来安装默认的 JDK 版本 11:

sudo apt install default-jdk

使用以下命令验证 Java 版本:

java --version

有关安装和管理Java OpenJDK的其他资源,请阅读下面的文章:

  • 如何在 Ubuntu Linux √ 上安装 OpenJDK

第 3 步。为 Hadoop 创建一个用户。

运行以下命令以创建名为 Hadoop 的新用户:

sudo adduser hadoop

接下来,通过运行以下命令切换到新创建的帐户:

su - hadoop

现在为新创建的Hadoop用户配置无密码SSH访问。首先生成 SSH 密钥对:

ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 640 ~/.ssh/authorized_keys

之后,使用以下命令验证无密码 SSH:

ssh localhost

如果您在没有密码的情况下登录,则可以继续下一步。

第 4 步。在 Ubuntu 22.04 上安装 Apache Hadoop。

默认情况下,Apache Hadoop 在 Ubuntu 22.04 基础存储库上可用。现在运行以下命令,将最新版本的Hadoop下载到您的Ubuntu系统:

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz

接下来,解压缩下载的文件:

tar xzf hadoop-3.3.4.tar.gz
mv hadoop-3.3.4 ~/hadoop

现在在您的系统上配置 Hadoop 和 Java 环境变量。在您喜欢的文本编辑器中打开文件:~/.bashrc

nano ~/.bashrc

在文件底部添加以下内容:

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

保存并关闭文件,然后加载新配置:

source ~/.bashrc

您还需要在文件中配置JAVA_HOME。在文本编辑器中编辑 Hadoop 环境变量文件:hadoop-env.sh

nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh

添加以下行:

###
# Generic settings for HADOOP
Many sites configure these options outside of Hadoop,
# such as in /etc/profile.d
# The java implementation to use. By default, this environment
# variable is REQUIRED on ALL platforms except OS X!export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64

第5步。配置 Apache Hadoop。

我们已经准备好配置Hadoop以开始接受连接。首先,在目录中创建两个文件夹( 和 ):namenodedatanodehdfs

mkdir -p ~/hadoopdata/hdfs/{namenode,datanode}

接下来,编辑下面的文件:core-site.xml

nano $HADOOP_HOME/etc/hadoop/core-site.xml

根据您的系统主机名更改以下名称:

See the License for the specific language governing permissions and
limitations under the License. See accompanying LICENSE file.
-->
<!-- Put site-specific property overrides in this file. --><configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

接下来,编辑文件:hdfs-site.xml

nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

更改 NameNode 和 DataNode 目录路径,如下所示:

See the License for the specific language governing permissions and
limitations under the License. See accompanying LICENSE file.
-->
<!-- Put site-specific property overrides in this file. --><configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
        <name>dfs.name.dir</name>
        <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>
        <name>dfs.data.dir</name>
        <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>
</configuration>

接下来,编辑文件:mapred-site.xml

nano $HADOOP_HOME/etc/hadoop/mapred-site.xml

进行以下更改:

See the License for the specific language governing permissions and
limitations under the License. See accompanying LICENSE file.
-->
<!-- Put site-specific property overrides in this file. --><configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

接下来,编辑文件:yarn-site.xml

nano $HADOOP_HOME/etc/hadoop/yarn-site.xml

创建纱线的配置属性:

See the License for the specific language governing permissions and
limitations under the License. See accompanying LICENSE file.
--><configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

我们必须启动Hadoop集群来运行Hadoop。为此,我们将首先格式化我们的 “”:namenode

hdfs namenode -format

接下来,运行以下命令以启动Hadoop:

start-all.sh

输出:

Starting namenodes on [localhost]
Starting datanodes
Starting secondary namenodes [Ubuntu2204]
Ubuntu2204: Warning: Permanently added 'ubuntu2204' (ED10019) to the list of known hosts.
Starting resourcemanager
Starting nodemanagers

步骤 7.配置防火墙。

现在,我们使用 Apache 设置了一个简单防火墙 (UFW),以允许在 8088 和 9870 的默认 Web 端口上进行公共访问:

sudo firewall-cmd --permanent --add-port=8088/tcp
sudo firewall-cmd --permanent --add-port=9870/tcp
sudo firewall-cmd --reload

第8步。访问 Apache Hadoop Web 界面。

成功安装后,打开您的 Web 浏览器并使用 URL 访问 Apache Hadoop 安装向导。您将被重定向到以下页面:http://your-IP-address:9870

Apache-hadoop-Web-Interface

您还可以使用 URL 访问各个数据节点。您应该看到以下屏幕:http://your-IP-address:8088

Apache-Hadoop-DataNodes

要访问 YARN 资源管理器,请使用 URL 。您应该看到以下屏幕:http://your-IP-address:8088

Apache-Hadoop-YARN-Resource-Manager

感谢您使用本教程在 Ubuntu 22.04 LTS Jammy Jellyfish 系统上安装 Apache Hadoop。如需其他帮助或有用信息,我们建议您查看 Apache Hadoop 官方网站

原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun6981.html

(0)
打赏 微信扫一扫不于多少! 微信扫一扫不于多少! 支付宝扫一扫礼轻情意重 支付宝扫一扫礼轻情意重
上一篇 2022年11月11日
下一篇 2022年11月11日

相关推荐

  • 如何在 Ubuntu 22.04 LTS 上安装 CockroachDB

    CockroachDB因其弹性而受到青睐,因为它提供了强大的一致性,并且可以在硬件或网络故障中幸存下来。它特别适合需要高可用性和低延迟数据访问的应用程序。 在 Ubuntu 22.…

    Linux命令 2023年10月14日
  • 如何在 Ubuntu 22.04 LTS 上安装 Streama

    在不断发展的媒体流世界中,Streama 作为托管您自己的媒体库的多功能开源解决方案脱颖而出。通过自托管 Streama,您可以完全控制您的内容,并可以在自己的服务器上舒适地欣赏流…

    Linux命令 2023年10月8日
  • 如何在 Ubuntu 22.04 LTS 上安装 Apache Kafka

    Apache Kafka以其有效处理实时数据流的能力而闻名。它是日志聚合、数据管道和事件驱动应用程序等方案的完美选择。 在 Ubuntu 22.04 LTS Jammy Jelly…

    Linux命令 2023年9月27日
  • 如何在 Ubuntu 22.04 LTS 上安装 GlusterFS

    GlusterFS是一个分布式文件系统,旨在高效可靠地处理大量数据。它通过在多个存储服务器上分布数据来实现这一目标,从而创建一个统一且可扩展的存储池。无论您需要高可用性解决方案、分…

    Linux命令 2023年9月22日
  • 如何在 Ubuntu 22.04 LTS 上安装 Lazygit

    在快节奏的软件开发世界中,高效的版本控制至关重要。Git 凭借其强大的功能,已成为跟踪项目更改的事实标准。但对于寻求一种更加用户友好的方式来与 Git 存储库交互的新手甚至经验丰富…

    Linux命令 2023年9月20日
  • 如何在 Ubuntu 22.04 LTS 上安装 WebERP

    WebERP是一个强大的开源基于Web的会计和业务管理系统,可以为各种规模的企业简化财务和运营流程。 在 Ubuntu 22.04 LTS Jammy Jellyfish 上安装 …

    Linux命令 2023年9月18日
  • 如何在 Ubuntu 22.04 LTS 上安装 Vtiger CRM

    客户关系管理 (CRM) 系统是各种规模企业必不可少的工具。Vtiger CRM作为一种多功能的开源CRM解决方案脱颖而出,可以帮助您简化运营,增强沟通并最终提高利润。 在 Ubu…

    Linux命令 2023年9月18日
  • 如何在 Debian 12 上安装 Apache Hadoop

    大数据是现代数据驱动型业务的支柱,Hadoop已成为处理和分析海量数据集的首选解决方案。如果你想在 Debian 12 系统上利用 Hadoop 的强大功能,那么你来对地方了。 在…

    Linux命令 2023年9月17日
  • 如何在 Ubuntu 22.04 LTS 上安装 WezTerm

    在 Linux 世界中,拥有一个功能强大且用途广泛的终端仿真器可以极大地增强您的工作流程和生产力。一个这样杰出的终端模拟器是WezTerm。它为您的命令行任务提供了一个功能丰富的现…

    Linux命令 2023年9月14日
  • 如何在 Ubuntu 22.04 LTS 上安装 Certbot

    在当今的数字时代,确保网站的安全性至关重要。网络安全的一个基本方面是使用SSL / TLS证书来加密您的网站与其访问者之间传输的数据。Certbot是一个免费的开源工具,简化了获取…

    Linux命令 2023年9月7日
  • 如何在 Ubuntu 22.04 LTS 上安装 CyberPanel

    在不断发展的SEO环境中,网站性能在决定搜索引擎排名方面起着关键作用。CyberPanel 是一个尖端的控制面板,提供了一套全面的工具来优化您的网站在 Ubuntu 22.04 L…

    Linux命令 2023年9月6日
  • 如何在 Ubuntu 22.04 LTS 上安装 Bauh

    Bauh 是一个适用于 Linux 的多功能应用程序管理器,它弥合了多个包管理器之间的差距,使其成为管理软件的强大而高效的工具。在本指南结束时,您将掌握利用 Bauh 的潜力满足您…

    Linux命令 2023年9月6日
  • 如何在 Ubuntu 22.04 LTS 上安装 Kotlin

    Kotlin 作为一种现代编程语言迅速崛起,它提供了增强的表现力、简洁性和安全性,使其成为各种软件项目的热门选择。作为使用 Ubuntu 22.04 的开发人员,将 Kotlin …

    Linux命令 2023年9月6日
  • 如何在 Ubuntu 22.04 LTS 上安装 FreeIPA

    FreeIPA 是一个开源身份管理系统,为 Linux/UNIX 系统、服务和应用程序提供集中的身份验证、授权和帐户信息。它建立在众所周知的开源组件之上,如LDAP,Kerbero…

    2023年4月1日
  • 如何在 Ubuntu 22.04 LTS 上安装 Tasksel

    Tasksel是一个功能强大的实用程序,可以简化Ubuntu系统管理员的软件包管理。使用Tasksel,用户可以轻松地将多个相关软件包安装为一个单元。Tasksel 按功能对软件包…

    2023年3月31日
  • 如何在 Ubuntu 22.04 LTS 上安装 Pi-Hole

    Pi-hole是一个强大的工具,它提供了一种简单有效的方法来阻止网络级别的广告和互联网跟踪器,从而带来更快,更干净,更私密的互联网浏览体验。 在 Ubuntu 22.04 LTS …

    2023年3月30日
  • 如何在 Ubuntu 22.04 LTS 上安装 Rancher

    Rancher是一个流行的开源容器管理平台,用于部署和管理Kubernetes集群,Docker容器和其他容器化技术。它提供了一个集中式用户界面,用于管理容器化应用程序、扩展资源和…

    Linux命令 2023年3月28日
  • 如何在 Ubuntu 22.04 LTS 上安装 MyPaint

    MyPaint是一款免费的开源图形应用程序,专为数字绘画和绘图而设计。它提供了各种画笔和工具来创建复杂的设计和插图,并以其用户友好的界面和可自定义的功能而闻名。MyPaint最初是…

    Linux命令 2023年3月27日
  • 如何在 Ubuntu 22.04 LTS 上安装 ProcessWire

    ProcessWire是一个免费的开源内容管理系统(CMS),以其灵活性,可扩展性和安全性而闻名。它旨在使开发人员能够轻松构建和管理任何复杂的网站,从小型个人博客到大型企业网站。它…

    Linux命令 2023年3月27日
  • 如何在 Ubuntu 22.04 LTS 上安装 Mixxx

    Mixxx 是一款免费的开源 DJ 软件,可让您混合音乐曲目并创建专业品质的 DJ 集。它支持各种音频格式,包括 MP3、OGG、FLAC 和 WAV。Mixxx DJ具有用户友好…

    Linux命令 2023年3月26日
  • 如何在 Ubuntu 22.04 LTS 上安装 KubeSphere

    KubeSphere 是一个企业级容器平台,使用户能够在 Kubernetes 上部署、管理和扩展容器化应用程序。它为管理 Kubernetes 集群提供了统一的界面,并简化了开发…

    2023年3月24日
  • 如何在 Ubuntu 22.04 LTS 上安装 Geeqie

    Geeqie是一个快速,轻量级,功能丰富的Linux系统图像查看器和组织者。它对各种图像格式和元数据的支持使其成为需要快速轻松地查看和组织图像的摄影师和其他用户的绝佳工具。易于安装…

    2023年3月24日
  • 如何在 Ubuntu 22.04 LTS 上安装 Avidemux

    Avidemux 是一款免费的开源视频编辑软件,可用于 Windows、macOS 和 Linux 操作系统。它专为简单的视频编辑任务而设计,例如剪切、过滤和编码。该软件以其用户友…

    Linux命令 2023年3月22日
  • 如何在 Ubuntu 22.04 LTS 上安装 YOURLS

    YOURLS代表您自己的URL缩短器,这是一个免费的开源PHP脚本,可让您创建自定义URL缩短服务。它允许您创建简短和自定义的URL,跟踪点击统计信息并控制您的数据。 在 Ubun…

    2023年3月22日
  • 如何在 Ubuntu 22.04 LTS 上安装 Smartctl

    Smartctl 是一个命令行工具,允许用户监控存储设备(如硬盘驱动器、固态驱动器和 USB 驱动器)的运行状况和性能。该工具的开发是为了与内置于许多存储设备中的自我监控、分析和报…

    2023年3月20日