Hadoop集群打包测试步骤(hadoop jar与yarn jar 运行)

Hadoop和YARN是Apache Hadoop生态系统中的两个重要组件。

Hadoop Jar是用于运行Hadoop任务的命令,它实际上是一个包含所有依赖项和配置文件的Java归档文件(JAR),用于执行Hadoop MapReduce任务。MapReduce是一种分布式计算模型,用于处理大规模数据集的并行计算。

YARN(Yet Another Resource Negotiator)是Hadoop的集群资源管理器。它的作用是管理集群中的计算资源并为应用程序提供资源。YARN允许不同类型的应用程序在同一集群上共享资源。与Hadoop Jar不同,YARN Jar用于运行在YARN上运行的应用程序,而不仅仅局限于MapReduce任务。

因此,Hadoop Jar主要用于运行Hadoop MapReduce任务,而YARN Jar用于运行在YARN上的各种应用程序,包括除了MapReduce之外的其他计算框架,如Spark、Hive等。YARN提供更灵活的资源管理和调度,使得集群可以同时运行多种类型的计算任务,提高了集群的利用率和灵活性。

 第一步:package打包Java项目

 点击package完成后会出现两个jar包,一般情况使用第一个,第二个为加上依赖的jar包

第二步:上交到集群上(拖拽上传或使用命令)

rz -E

命令可以弹出窗口,供选择提交文件

第三步:测试jar包

hadoop jar your.jar com.you.Driver /user/input /user/output
yarn jar your.jar com.you.Driver /user/input /user/output

这两条命令运行效果在特定情况下一样,要注意已经启动好相应hadoop服务

your.jar替换为你上传的jar包

com.you.Driver替换为你要运行的类

后面的/user/input为你要测试的文件地址

/user/output为输出测试结果的地址(要保证没有相应的目录)

第四步:进入hdfs上查看是否成功运行

输入hadoop102:9870(未设置主机名与端口号相对应的,则需要将主机名转换为相应端口号才可以进入)网址进入hdfs中查看