问题标签 [apache-tez]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
5073 浏览

hadoop - 在通过 tez 在 hive 上运行查询时出错

在 hive over tez 上运行查询时出错。根据日志,hive 在复制 tez jarshdfs开始时的位置时失败。tez session以下是从 hivelog文件获得的完整日志:

0 投票
2 回答
3402 浏览

hive - 在哪里可以找到 Apache Tez 的作业执行日志

我已经在 hadoop 上设置了 tez。我正在select COUNT(DISTINCT first_name) from user_test where country='India';使用 hive 运行查询。

当我使用hive.execution.engine=mr(mr) 作为执行环境时,Job 执行成功,并且日志也可以在 Hadoop UI 上看到。但是当我运行相同的工作时,tez我遇到了错误,而且我也无法找到日志。

Launching Job 1 out of 1 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask

我无法找到错误的详细日志,在哪里生成日志文件的任何帮助。

0 投票
1 回答
3091 浏览

hadoop - 带有查询的位置 Hive 日志 (Tez)

最近我从 Hadoop 1.0 迁移到 Hadoop 2.0。现在 Hive 在 Tez 上执行,我找不到包含查询的日志。

我可以访问汇总日志:yarn logs -applicationId application_xxx。但它不包含我的查询文本

请帮我查找带有查询的日志。

0 投票
2 回答
430 浏览

java - 使用 hadoop 配置 Apache Tez

简而言之,这是我所做的:

第1 步:我已经在我的笔记本电脑(单节点)上成功配置了 hadoop 2.6,并运行了一个示例 mapreduce 作业。

STEP2:我克隆了tez存储库并成功构建了0.8.0版本并将jarfiles复制到HDFS并导出所需的变量。我还将变量的值更改为mapreduce.framework.namemapred -site.xmlyarn-tez中的值。

但是当我想运行一个 tez orderedwordcount 作业时,我得到了这个错误:

我检查了资源管理器,它正在侦听端口 8030。但似乎客户端试图连接到一个随机端口。这是对的吗?

我该怎么做才能让它正常工作?

0 投票
1 回答
1390 浏览

hive - 带有 Tez 的 Hive,作业中未指定输入路径

我用过hadoop-0.20.xx,hive-0.11.0。我会谈论蜂巢查询:使用指定的配置,一切都很好并且工作正常。现在,我们已经升级到 hadoop-2.6.x (hadoop2) 和 hive-0.14.x。也使用 Apache Tez。

问题是,hadoop 按原样工作。但是 hive sql 查询没有。以下查询在旧版本中运行良好。但是在升级版本中抛出错误: QUERY :SELECT abc.property_name, xyz.date, xyz.time, xyz.value_as_number, xyz.value_units FROM dbname.xyz JOIN dbname.abc ON (xyz.id = abc.src_id) WHERE xyz.person_id=138312;

例外:

例外说,No input path specified。好吧,我了解并知道如何在 haodop-mapreduce 程序中解决问题。但是,我们如何使用 hive 查询来做到这一点。无论如何,我不认为这是一样的。

为了弄清楚,我使用了hive shelland beeline shell,hive 返回了预期的输出,但是,beeline 返回了与上面相同的异常。

问题的美妙之处在于对单个表的查询工作正常。但是,当我尝试处理时JOIN,它会引发上述异常。但是,我明白,Apache Tez对我的查询有影响。有人可以建议解决方案或确定 tez 参考,以便我可以相应地读取和重写查询。谢谢

0 投票
5 回答
1391 浏览

hadoop - Apache Tez 构建失败

我正在尝试使用以下命令在 Windows 中为 hadoop-2.6.0 构建 Apache Tez(0.6.1 和 0.7.0 版本)

但我得到了例外

如何解决这个问题?

0 投票
1 回答
458 浏览

hadoop - 如何在本地运行 Apache Tez?

除了与 hadoop 集成之外,执行 tez 的一种方式是在本地模式下。为了在本地运行它,我阅读了此页面并了解了我必须做出的更改,并更新了 tez-site.xml 配置。但我不知道如何开始。

我尝试运行一个具有 main 方法的 tez 示例(例如 wordCount)。但它会停止并且不会将任何内容打印到标准输出。有什么我必须先开始的吗?

如何在本地模式下运行 tez?

0 投票
1 回答
780 浏览

java - 由不同用户提交时,Tez 作业失败

配置了具有 Kerberos 安全性的 Hadoop-2.6.0 HA 集群。当使用 tez-example-0.6.0.jaryarn-tez从不同用户的框架中提交示例作业时,得到以下异常

例外

该目录具有完全权限,但仍然出现上述异常。但是在yarn-tez框架中使用 mapreduce-examples-2.6.0.jar 提交作业时,作业成功完成。

命令

帮助将不胜感激。

0 投票
0 回答
1646 浏览

performance - 不可接受的慢速 Hive 查询

我在 HDP2 集群上运行 Hive 0.14。我的数据集是使用 kite sdk 构建的,并使用外部表注册到 Hive。

请参阅下面的表格布局:

我对此设置的初始测试查询是只获取数据集的一行(我在示例中删除了实际输出):

运行此查询的 104 秒太长了。

这可能没有分布式运行,因此我尝试使用更多数据对其进行测试:

在 10 分钟内计算 10 万条记录是合理的。

我对如何调试它的任何建议感到满意。

0 投票
1 回答
637 浏览

hadoop - wordCount mapReduce 作业如何在 apache tez 的 hadoop 纱线集群上运行?

正如tez的 github 页面所说,tez 非常简单,其核心只有两个组件:

  1. 数据处理管道引擎,以及

  2. 数据处理应用程序的主机,可以将上述任意数据处理“任务”组合成一个任务-DAG

那么我的第一个问题是,tez-examples.jar 中存在的诸如 wordcount 之类的现有 mapreduce 作业如何转换为 task-DAG?在哪里?或者他们不……?

我的第二个也是更重要的问题是关于这部分:

tez 中的每个“任务”都有以下内容:

  1. 用于使用键/值对的输入。
  2. 处理器来处理它们。
  3. 输出以收集处理后的键/值对。

谁负责在 tez 任务之间拆分输入数据?是用户提供的代码还是 Yarn(资源管理器)甚至是 tez 本身?

输出阶段的问题是相同的。提前致谢