“apache-tez”的相关标签问题

0 投票

4 回答

20749 浏览

hadoop - How do I increase Tez's container physical memory?

I've been running some hive scripts on an aws emr 4.8 cluster with hive 1.0 and tez 0.8.

My configurations look like this:

And my global configs are:

While running my script, I get the following error:

On googling this error, I read that set tez.task.resource.memory.mb will change the physical memory limit, but clearly I was mistaken. What am I missing?

2016-10-26T01:45:54.477

0 投票

0 回答

479 浏览

hadoop - Java：在kerberized hadoop集群上访问作业历史服务器和应用程序时间线服务器？

我已经使用 kerberos rest 模板来访问 kerberized hadoop 上的作业历史服务器，但是这段代码向我抛出了一个异常：

例外：

那么是否有任何额外的参数我必须在请求标头中传递才能访问 kerberos 安全 api？同样在访问此 api 之前，我已经使用 hadoop 安全性的 UserGroupInformation 类通过 kerberosRestTemplate 中提供的相同用户主体和 keytab 登录了用户。

在访问作业历史记录之前，我已经检查了当前登录的用户（通过当前用户的 ugi），它让我知道用户已登录并使用 kerberos 身份验证，但我仍然从作业历史记录服务器获得 401 状态。

hadoop kerberos spring-security-kerberos apache-tez

2017-01-19T11:47:35.280

0 投票

1 回答

274 浏览

hadoop - 如果与函数一起使用，Hive 不返回任何值

我对蜂巢壳有一个奇怪的问题。我使用 Apache 原始包创建了一个 Hadoop 系统。我用特兹。

为了测试系统，我将纽约出租车数据毫无问题地加载到 hive 中。该数据集大约有 1100 万行。如果我确实在 hive shell 中选择了 staments，它就可以工作。如果我使用这样的功能

或者

该过程运行没有任何问题，但只返回OK。如果我在 spark-sql 中做同样的事情，我会得到答案。此外，如果我按语句分组，结果是相同的。

表定义为

这是 ORC 格式。我也使用了 Parquet，但结果没有区别。

如果我计算行数，其他表格也只显示 OK 结果。

这是一些示例行，如上所述，这是我用于测试的免费可用的纽约出租车数据。

hadoop hive apache-spark-sql hiveql apache-tez

2017-02-28T11:53:40.787

0 投票

1 回答

778 浏览

hive - 带有 Tez 的 Hive2 给出执行错误

我将 Hive2 与 Tez 一起使用。当我运行查询时，它会给出执行错误，如下所示。

java.lang.IllegalArgumentException：无法从空字符串创建路径

hive hiveql hadoop2 tez apache-tez

2017-06-16T10:31:30.473

0 投票

1 回答

846 浏览

hive - 为什么我在 Tez 工作中得到负分配的映射器？顶点失败？

我正在尝试使用此处记录的 PhoenixStorageHandler ，并在直线外壳中使用以下查询填充它：

我在 Tez 会话中得到以下映射器的细分：

在会话崩溃并出现关于顶点故障的很长的错误消息（422 行）之前：

错误：处理语句时出错：FAILED：执行错误，从 org.apache.hadoop.hive.ql.exec.tez.TezTask 返回代码 2。顶点失败，顶点名称 = 映射 1，顶点 ID = 顶点_1499857429667_0084_2_00，诊断 = [任务失败，任务 ID =任务_1499857429667_0084_2_00_000007，诊断 = [任务尝试 0 失败，信息 = [错误：运行任务时失败：java.lang.RuntimeException：java.lang.RuntimeException : Map operator 初始化失败 [.........] Vertex 由于 OWN_TASK_FAILURE 未成功，failedTasks:1killedTasks:49，Vertex vertex_1499857429667_0084_2_00 [Map 1] 由于：OWN_TASK_FAILURE 而杀死/失败]DAG 未成功到 VERTEX_FAILURE。failedVertices:1 killVertices:0 (state=08S01,code=2)

这个错误指的是什么？为什么会有“负映射器”？

hive hbase hiveql phoenix apache-tez

2017-07-17T19:39:41.920

0 投票

1 回答

12554 浏览

hadoop - 顶点失败错误和映射器初始化失败 - Hive

我在我们的服务器中使用 Hortonworks 数据平台，有 2 个节点。我在蜂巢中成功运行查询。突然，我面临与源表的映射以向我的新表添加列，通过以下查询；在配置单元视图中运行此查询时。我该如何解决这个问题？

我得到顶点失败错误。请找到我的日志

hadoop hive mapreduce hadoop-yarn apache-tez

2017-09-03T07:33:52.590

0 投票

2 回答

438 浏览

hive - 如何在使用 TEZ 向 hive ORC 表中插入数据时创建小文件

我尝试了几个选项，但我只看到了将小文件合并到大文件的配置设置，如下所示，反之亦然。我正在寻找大小为 150kb 的文件。

hive orc apache-tez

2017-09-14T15:48:11.610

0 投票

1 回答

356 浏览

sql - 有没有办法为 Hive 返回的所有记录动态添加一个常量值？

我想在 Hive v1.2.1 中执行以下查询，其中field_3从另一个表中查询。

对于返回的每条记录，的值field_3都是相同的。问题是它存储在另一个表中。要获得该值，我可以按如下方式获得。

现在，我已经对文字进行了硬编码。

但是，这种方法是不可取的，因为适当的值会在一天中发生变化。

任何解决方案都应该考虑它是否可以通过 Hive SQL 上下文插入到 Spark 中。

sql hive mapreduce hiveql apache-tez

2017-10-20T04:02:50.860

0 投票

1 回答

1153 浏览

hadoop - Tez - DAGAppMaster - java.lang.IllegalArgumentException: Invalid ContainerId

我尝试启动 mapreduce 作业，但在 shell 或 hive 中执行作业时出现错误：

蜂巢>从员工中选择计数（*）；查询 ID = mapr_20171107135114_a574713d-7d69-45e1-aa73-d4de07a3059b 总作业 = 1 启动作业 1 / 1 在编译时确定的缩减任务数：1 为了更改缩减器的平均负载（以字节为单位）：设置 hive。 exec.reducers.bytes.per.reducer= 为了限制reducer 的最大数量：set hive.exec.reducers.max= 为了设置一个恒定的reducer 数量：set mapreduce.job.reduces= 开始Job = job_1510052734193_0005 , 跟踪 URL = http://hdpsrvpre2.intranet.darty.fr:8088/proxy/application_1510052734193_0005/ Kill Command = /opt/mapr/hadoop/hadoop-2.7.0/bin/hadoop job -kill job_1510052734193_0005 Stage-1的Hadoop作业信息：映射器数量：0；减速器数量：0 2017-11-07 13:51:25,951 Stage-1 map = 0%，reduce = 0% Ended Job = job_1510052734193_0005 with errors 作业期间出错，获取调试信息... **FAILED：执行错误，从 org.apache.hadoop.hive.ql.exec.mr.MapRedTask 返回代码 2 已启动 MapReduce 作业：Stage-Stage-1：MAPRFS 读取：0 MAPRFS 写入：0 FAIL MapReduce CPU 总时间花费：0 mse

在 Ressourcemanager 日志中，我发现了什么：

另外，在我发现的工作系统日志中：

2017-11-07 12:09:46,419 FATAL [main] app.DAGAppMaster：启动 DAGAppMaster java.lang.IllegalArgumentException 时出错：ContainerId 无效：在 org.apache.hadoop.yarn.util.ConverterUtils.toContainerId(ConverterUtils. 182) 在 org.apache.tez.dag.app.DAGAppMaster.main(DAGAppMaster.java:1794) 引起：java.lang.NumberFormatException：对于输入字符串：
java.lang.NumberFormatException.forInputString(NumberFormatException. java:65) 在 java.lang.Long.parseLong(Long.java:441) 在 java.lang.Long.parseLong(Long.java:483) 在 org.apache.hadoop.yarn.util.ConverterUtils.toApplicationAttemptId(ConverterUtils .java:137) 在 org.apache.hadoop.yarn.util.ConverterUtils.toContainerId(ConverterUtils.java:177) ... 还有 1 个

似乎是 Tez 导致了这个问题，有什么解决方案可以解决这个问题吗？谢谢！

hadoop hive hadoop-yarn tez apache-tez

2017-11-08T13:40:30.410

0 投票

2 回答

286 浏览

amazon-s3 - Amazon EMR over s3 上的 TezTask 顶点故障

我在 EMR 上创建了 Hive 表，看起来像

当我从 tests3 中选择 * 时，我得到了记录。但是运行任何 tez 任务都会给我以下错误。

amazon-s3 hive mapreduce amazon-emr apache-tez

2017-12-22T06:14:56.250

问题标签 [apache-tez]

Reference