如何在 Debian 12 上安装 Apache Hadoop

大数据是现代数据驱动型业务的支柱,Hadoop已成为处理和分析海量数据集的首选解决方案。如果你想在 Debian 12 系统上利用 Hadoop 的强大功能,那么你来对地方了。

Apache-Hadoop-logo

在 Debian 12 书虫上安装 Apache Hadoop

第 1 步。在我们安装任何软件之前,通过在终端中运行以下命令来确保您的系统是最新的非常重要:apt

sudo apt update

此命令将刷新存储库,允许您安装最新版本的软件包。

第 2 步。安装 Java 开发工具包 (JDK)。

Hadoop依赖于Java,所以请确保你安装了JDK:

sudo apt install openjdk-11-jdk

使用以下命令验证 Java 版本:

java --version

第 3 步。准备 Hadoop 环境

在深入研究 Hadoop 安装之前,最好为 Hadoop 创建一个专用用户并设置必要的目录:

sudo adduser hadoopuser

授予新用户 sudo 权限并将其添加到组中:users

sudo usermod -aG sudo hadoopuser
sudo usermod -aG users hadoopuser

第 4 步。在 Debian 12 上安装 Hadoop。

访问Apache Hadoop官方网站并下载适合您需求的Hadoop发行版。在本指南中,我们将使用 Hadoop 3.3.6:

wget https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.6/hadoop-3.3.6-src.tar.gz

通过验证 SHA-256 校验和确保下载未损坏:

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6-src.tar.gz.sha512
sha256sum -c hadoop-3.3.6-src.tar.gz.sha512

接下来,为 Hadoop 创建一个目录并提取下载的存档:

sudo mkdir /opt/hadoop
sudo tar -xzvf hadoop-3.3.6.tar.gz -C /opt/hadoop --strip-components=1

第5步。配置Hadoop。

Hadoop的配置对于其正常运行至关重要。让我们深入研究必要的配置。

A. 了解核心 Hadoop 配置文件

Hadoop 有几个 XML 配置文件,但我们主要关注四个:、 和 。core-site.xmlhdfs-site.xmlyarn-site.xmlmapred-site.xml

B. 编辑核心站点.xml

编辑核心站点.xml配置文件:

sudo nano /opt/hadoop/etc/hadoop/core-site.xml

将以下属性添加到标记:<configuration>

<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>

C. 编辑 hdfs 站点.xml

编辑配置文件:hdfs-site.xml

sudo nano /opt/hadoop/etc/hadoop/hdfs-site.xml

Add the following properties:

<property>
<name>dfs.replication</name>
<value>1</value>
</property>

D. 配置纱线站点.xml

编辑配置文件:yarn-site.xml

sudo nano /opt/hadoop/etc/hadoop/yarn-site.xml

添加以下属性:

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

E. 配置映射站点.xml

编辑配置文件:mapred-site.xml

sudo nano /opt/hadoop/etc/hadoop/mapred-site.xml

添加以下属性:

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

第 6 步。设置 SSH 身份验证。

Hadoop依靠SSH来实现节点之间的安全通信。让我们设置 SSH 密钥。

为 Hadoop 用户生成 SSH 密钥:

sudo su - hadoopuser
ssh-keygen -t rsa -P ""

将公钥复制到文件:authorized_keys

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

测试与本地主机和其他节点的 SSH 连接:

ssh localhost

步骤 7.格式化 Hadoop 分布式文件系统 (HDFS)。

在启动Hadoop服务之前,我们需要格式化Hadoop分布式文件系统(HDFS)。

初始化 NameNode:

hdfs namenode -format

为 HDFS 创建必要的目录:

hdfs dfs -mkdir -p /user/hadoopuser
hdfs dfs -chown hadoopuser:hadoopuser /user/hadoopuser

通过浏览位于 的 NameNode Web 界面来验证 HDFS 状态。http://localhost:9870

第8步。启动 Hadoop 服务。

是时候启动Hadoop服务了。启动 Hadoop NameNode 和 DataNode:

start-dfs.sh

启动资源管理器和节点管理器:

start-yarn.sh

为确保一切顺利运行,请使用位于 的资源管理器 Web 界面检查 Hadoop 集群的状态。http://localhost:8088

第9步。运行一个简单的 Hadoop 作业。

现在,让我们通过运行一个简单的MapReduce作业来测试我们的Hadoop设置。

A. 准备输入数据

创建输入目录并上传示例文本文件:

hdfs dfs -mkdir -p /input
hdfs dfs -put /path/to/your/inputfile.txt /input

B. 运行 MapReduce 作业

运行字数统计示例:

hadoop jar /opt/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /input /output

C. 监视作业进度

通过访问资源管理器 Web 界面来监视作业进度。

第10步。排查常见问题

虽然Hadoop功能强大,但它可能具有挑战性。以下是一些常见问题及其解决方案。

A. 诊断 Hadoop 启动问题

  • 检查日志中的错误消息。/opt/hadoop/logs
  • 确保正确编辑所有配置文件。

B. 调试 HDFS 问题

  • 通过浏览 NameNode Web 界面来验证 HDFS 状态。
  • 检查数据目录中的磁盘空间和权限问题。

C. 处理资源分配问题

  • 调整纱线站点.xml文件中的资源分配。
  • 在资源管理器 Web 界面中监视资源使用情况。

感谢您使用本教程在 Debian 12 Bookworm 上安装最新版本的 Apache Hadoop。有关其他帮助或有用信息,我们建议您查看Hadoop官方网站

原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun260913.html

(0)
打赏 微信扫一扫不于多少! 微信扫一扫不于多少! 支付宝扫一扫礼轻情意重 支付宝扫一扫礼轻情意重
上一篇 2023年9月17日
下一篇 2023年9月17日

相关推荐

  • 如何在 Debian 12 上安装 Bitwarden

    在当今的数字世界中,安全漏洞和数据泄漏变得越来越普遍,强大的密码管理至关重要。密码是我们在线帐户的前线防御,安全地管理它们是不可协商的。Bitwarden是一种开源密码管理解决方案…

    Linux命令 2023年10月16日
  • 如何在 Debian 12 上安装 PyCharm

    Python是一种通用且广泛使用的编程语言,由于其简单性和强大的功能而在开发人员中获得了极大的欢迎。为了使Python开发更加高效和愉快,像PyCharm这样的集成开发环境(IDE…

    Linux命令 2023年10月16日
  • 如何在 Debian 12 上安装 Skype

    在全球连接的时代,Skype仍然是数字通信领域的中坚力量。它为语音和视频通话、即时消息和协作提供了一个多功能平台。如果您是 Debian 12 用户,希望利用 Skype 的强大功…

    Linux命令 2023年10月14日
  • 如何在 Debian 12 上安装 WireGuard

    在日益关注在线安全和隐私的时代,建立虚拟专用网络(VPN)已成为最重要的需求。WireGuard 是一种现代且高效的 VPN 协议,为互联网上的安全通信提供了简化的解决方案。 在 …

    Linux命令 2023年10月14日
  • 如何在 Debian 12 上安装 Microsoft 团队

    在当今快速发展的数字环境中,有效的沟通和协作至关重要。Microsoft Teams 已成为现代工作场所生产力的基石,促进团队成员之间的无缝交互,无论其地理位置如何。为了充分利用这…

    Linux命令 2023年10月14日
  • 如何在 Debian 12 上安装 Suricata

    在当今不断发展的数字环境中,网络安全至关重要。对网络的威胁可能来自各个角度,因此采用强大的入侵检测系统 (IDS) (如 Suricata 至关重要)。这种开源IDS以其检测和防止…

    Linux命令 2023年10月13日
  • 如何在 Debian 12 上安装 Lighttpd

    在 Web 服务器领域,效率和性能至关重要。无论您是经验丰富的开发人员还是新手,拥有快速可靠的 Web 服务器都至关重要。Lighttpd,通常被亲切地称为“lighty”,是一个…

    Linux命令 2023年10月11日
  • 如何在 Debian 12 上安装 Perl

    Perl,一种多功能且功能强大的脚本语言,在Linux生态系统中起着举足轻重的作用。其广泛的模块库和广泛的应用程序使其成为系统管理员、开发人员和任何希望利用灵活编程语言功能的人的必…

    Linux命令 2023年10月11日
  • 如何在 Debian 12 上安装 Memcached

    在当今快节奏的数字世界中,Web 应用程序需要卓越的性能来为用户提供无缝体验。实现此目的的一种方法是使用 Memcached,这是一种高性能的分布式内存对象缓存系统。通过将频繁访问…

    Linux命令 2023年10月9日
  • 如何在 Debian 12 上安装 Gitlab

    GitLab 是一个强大的基于 Web 的版本控制和协作平台。它提供了一个多合一的解决方案,用于管理您的软件开发项目,从源代码存储库到问题跟踪和持续集成。为了充分利用 GitLab…

    Linux命令 2023年10月7日
  • 如何在 Debian 12 上安装 phpPgAdmin

    在关系数据库的世界里,PostgreSQL作为一个强大的开源选择而站得住脚。它用途广泛,坚固耐用,广泛用于各种应用。为了有效地管理您的 PostgreSQL 数据库,您需要一个可靠…

    Linux命令 2023年10月7日
  • 如何在 Debian 12 上安装 Darkstat

    在当今的数字环境中,网络流量监控不仅是一种最佳实践;这是必须的。无论您是负责维护服务器基础架构的系统管理员,还是监督复杂网络的网络工程师,实时了解网络的流量模式都至关重要。这就是D…

    Linux命令 2023年10月5日
  • 如何在 Debian 12 上安装 Grafana。

    在当今快节奏的数字环境中,监控和可视化数据的能力至关重要。无论您是管理网络、跟踪服务器性能还是分析应用程序日志,Grafana 都是强大的开源解决方案,可为您提供实时见解。 在 D…

    Linux命令 2023年10月4日
  • 如何在 Debian 12 上安装 Apache Cassandra

    Apache Cassandra是一个强大的开源NoSQL数据库管理系统,旨在处理分布式服务器上的大量数据。它提供高可用性、容错和可伸缩性的能力使其成为处理大规模数据存储和检索的组…

    Linux命令 2023年10月4日
  • 如何在 Debian 12 上安装 Darkstat

    在当今的数字环境中,网络流量监控不仅是一种最佳实践;这是必须的。无论您是负责维护服务器基础架构的系统管理员,还是监督复杂网络的网络工程师,实时了解网络的流量模式都至关重要。这就是D…

    Linux命令 2023年10月4日
  • 如何在 Debian 12 上安装 R 和 Rstudio。

    RStudio 是数据科学家和分析师的关键工具,它提供了一个集成开发环境 (IDE),简化了使用 R(一种用于统计计算和数据分析的强大语言)的过程。虽然许多用户选择图形安装,但通过…

    Linux命令 2023年10月1日
  • 如何在 Debian 12 上安装 Virtualmin

    在网络托管和服务器管理领域,Virtualmin对于希望简化任务的管理员来说是一个功能强大,用户友好的解决方案。使用Virtualmin,您可以轻松管理多个网站,数据库,电子邮件帐…

    Linux命令 2023年9月30日
  • 如何在 Debian 12 上安装 Squid 代理服务器

    Squid 是一个开源代理服务器和 Web 缓存守护程序,可拦截和缓存 HTTP、HTTPS、FTP 和其他协议,以提高 Web 性能、减少带宽消耗并增强安全性。 在 Debian…

    Linux命令 2023年9月29日
  • 如何在 Debian 12 上安装 FileZilla

    文件传输是现代计算不可或缺的一部分,在有效管理文件方面,FileZilla 是许多用户的首选。无论您是需要将文件上传到 Web 服务器、从 FTP 服务器下载文件,还是只是组织本地…

    Linux命令 2023年9月28日
  • 如何在 Debian 12 上安装 Microsoft SQL Server

    在当今数据驱动的世界中,对强大而高效的数据库管理系统的需求至关重要。Microsoft SQL Server 是管理关系数据库的最流行选择之一。 在 Debian 12 书虫上安装…

    Linux命令 2023年9月25日
  • 如何在 Debian 12 上安装超级终端

    在 Linux 领域,终端仿真器是通往操作系统核心的门户,使您能够使用强大的命令并像真正的向导一样控制您的系统。虽然 Ubuntu 是最受欢迎的 Linux 发行版之一,带有其默认…

    Linux命令 2023年9月24日
  • 如何在 Debian 12 上安装 aaPanel

    在当今快节奏的数字环境中,高效的服务器管理至关重要。无论您是经验丰富的系统管理员还是 Web 开发人员,拥有合适的工具来简化复杂的服务器任务都可以节省您的时间和精力。这就是aaPa…

    Linux命令 2023年9月23日
  • 如何在 Debian 12 上安装 Arduino IDE。

    开源电子平台Arduino彻底改变了DIY电子产品和嵌入式系统的世界。如果您是 Debian 12 用户,希望开始令人兴奋的 Arduino 项目,那么这本综合指南将成为您忠实的伴…

    Linux命令 2023年9月23日
  • 如何在 Debian 12 上安装 LEMP

    在不断发展的 Web 开发环境中,强大而安全的服务器环境是成功 Web 存在的基石。LEMP堆栈,包括Linux,Nginx,MySQL和PHP,是托管动态网站和Web应用程序的受…

    Linux命令 2023年9月21日
  • 如何在 Debian 12 上安装 LAMP

    LAMP 堆栈是 Web 应用程序和网站的基本构建块。它结合了Linux,ApacheWeb服务器,MySQL数据库系统和PHP的强大功能,用于服务器端脚本。但是,在当今的数字环境…

    Linux命令 2023年9月20日