Hadoop集群打包测试步骤(hadoop jar与yarn jar 运行)
Hadoop和YARN是Apache Hadoop生态系统中的两个重要组件。
Hadoop Jar是用于运行Hadoop任务的命令,它实际上是一个包含所有依赖项和配置文件的Java归档文件(JAR),用于执行Hadoop MapReduce任务。MapReduce是一种分布式计算模型,用于处理大规模数据集的并行计算。
YARN(Yet Another Resource Negotiator)是Hadoop的集群资源管理器。它的作用是管理集群中的计算资源并为应用程序提供资源。YARN允许不同类型的应用程序在同一集群上共享资源。与Hadoop Jar不同,YARN Jar用于运行在YARN上运行的应用程序,而不仅仅局限于MapReduce任务。
因此,Hadoop Jar主要用于运行Hadoop MapReduce任务,而YARN Jar用于运行在YARN上的各种应用程序,包括除了MapReduce之外的其他计算框架,如Spark、Hive等。YARN提供更灵活的资源管理和调度,使得集群可以同时运行多种类型的计算任务,提高了集群的利用率和灵活性。
第一步:package打包Java项目
点击package完成后会出现两个jar包,一般情况使用第一个,第二个为加上依赖的jar包
第二步:上交到集群上(拖拽上传或使用命令)
rz -E
命令可以弹出窗口,供选择提交文件
第三步:测试jar包
hadoop jar your.jar com.you.Driver /user/input /user/output
yarn jar your.jar com.you.Driver /user/input /user/output
这两条命令运行效果在特定情况下一样,要注意已经启动好相应hadoop服务
your.jar替换为你上传的jar包
com.you.Driver替换为你要运行的类
后面的/user/input为你要测试的文件地址
/user/output为输出测试结果的地址(要保证没有相应的目录)
第四步:进入hdfs上查看是否成功运行
输入hadoop102:9870(未设置主机名与端口号相对应的,则需要将主机名转换为相应端口号才可以进入)网址进入hdfs中查看