问题标签 [apache-tez]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - How do I increase Tez's container physical memory?
I've been running some hive scripts on an aws emr 4.8
cluster with hive 1.0 and tez 0.8.
My configurations look like this:
And my global configs are:
While running my script, I get the following error:
On googling this error, I read that set tez.task.resource.memory.mb
will change the physical memory limit, but clearly I was mistaken. What am I missing?
hadoop - Java:在kerberized hadoop集群上访问作业历史服务器和应用程序时间线服务器?
我已经使用 kerberos rest 模板来访问 kerberized hadoop 上的作业历史服务器,但是这段代码向我抛出了一个异常:
例外:
那么是否有任何额外的参数我必须在请求标头中传递才能访问 kerberos 安全 api?同样在访问此 api 之前,我已经使用 hadoop 安全性的 UserGroupInformation 类通过 kerberosRestTemplate 中提供的相同用户主体和 keytab 登录了用户。
在访问作业历史记录之前,我已经检查了当前登录的用户(通过当前用户的 ugi),它让我知道用户已登录并使用 kerberos 身份验证,但我仍然从作业历史记录服务器获得 401 状态。
hadoop - 如果与函数一起使用,Hive 不返回任何值
我对蜂巢壳有一个奇怪的问题。我使用 Apache 原始包创建了一个 Hadoop 系统。我用特兹。
为了测试系统,我将纽约出租车数据毫无问题地加载到 hive 中。该数据集大约有 1100 万行。如果我确实在 hive shell 中选择了 staments,它就可以工作。如果我使用这样的功能
或者
该过程运行没有任何问题,但只返回OK。如果我在 spark-sql 中做同样的事情,我会得到答案。此外,如果我按语句分组,结果是相同的。
表定义为
这是 ORC 格式。我也使用了 Parquet,但结果没有区别。
如果我计算行数,其他表格也只显示 OK 结果。
这是一些示例行,如上所述,这是我用于测试的免费可用的纽约出租车数据。
hive - 带有 Tez 的 Hive2 给出执行错误
我将 Hive2 与 Tez 一起使用。当我运行查询时,它会给出执行错误,如下所示。
java.lang.IllegalArgumentException:无法从空字符串创建路径
hive - 为什么我在 Tez 工作中得到负分配的映射器?顶点失败?
我正在尝试使用此处记录的 PhoenixStorageHandler ,并在直线外壳中使用以下查询填充它:
我在 Tez 会话中得到以下映射器的细分:
在会话崩溃并出现关于顶点故障的很长的错误消息(422 行)之前:
错误:处理语句时出错:FAILED:执行错误,从 org.apache.hadoop.hive.ql.exec.tez.TezTask 返回代码 2。顶点失败,顶点名称 = 映射 1,顶点 ID = 顶点_1499857429667_0084_2_00,诊断 = [任务失败,任务 ID =任务_1499857429667_0084_2_00_000007,诊断 = [任务尝试 0 失败,信息 = [错误:运行任务时失败:java.lang.RuntimeException:java.lang.RuntimeException : Map operator 初始化失败 [.........] Vertex 由于 OWN_TASK_FAILURE 未成功,failedTasks:1killedTasks:49,Vertex vertex_1499857429667_0084_2_00 [Map 1] 由于:OWN_TASK_FAILURE 而杀死/失败]DAG 未成功到 VERTEX_FAILURE。failedVertices:1 killVertices:0 (state=08S01,code=2)
这个错误指的是什么?为什么会有“负映射器”?
hadoop - 顶点失败错误和映射器初始化失败 - Hive
我在我们的服务器中使用 Hortonworks 数据平台,有 2 个节点。我在蜂巢中成功运行查询。突然,我面临与源表的映射以向我的新表添加列,通过以下查询;在配置单元视图中运行此查询时。我该如何解决这个问题?
我得到顶点失败错误。请找到我的日志
hive - 如何在使用 TEZ 向 hive ORC 表中插入数据时创建小文件
我尝试了几个选项,但我只看到了将小文件合并到大文件的配置设置,如下所示,反之亦然。我正在寻找大小为 150kb 的文件。
sql - 有没有办法为 Hive 返回的所有记录动态添加一个常量值?
我想在 Hive v1.2.1 中执行以下查询,其中field_3
从另一个表中查询。
对于返回的每条记录, 的值field_3
都是相同的。问题是它存储在另一个表中。要获得该值,我可以按如下方式获得。
现在,我已经对文字进行了硬编码。
但是,这种方法是不可取的,因为适当的值会在一天中发生变化。
任何解决方案都应该考虑它是否可以通过 Hive SQL 上下文插入到 Spark 中。
hadoop - Tez - DAGAppMaster - java.lang.IllegalArgumentException: Invalid ContainerId
我尝试启动 mapreduce 作业,但在 shell 或 hive 中执行作业时出现错误:
蜂巢>从员工中选择计数(*);查询 ID = mapr_20171107135114_a574713d-7d69-45e1-aa73-d4de07a3059b 总作业 = 1 启动作业 1 / 1 在编译时确定的缩减任务数:1 为了更改缩减器的平均负载(以字节为单位):设置 hive。 exec.reducers.bytes.per.reducer= 为了限制reducer 的最大数量:set hive.exec.reducers.max= 为了设置一个恒定的reducer 数量:set mapreduce.job.reduces= 开始Job = job_1510052734193_0005 , 跟踪 URL = http://hdpsrvpre2.intranet.darty.fr:8088/proxy/application_1510052734193_0005/ Kill Command = /opt/mapr/hadoop/hadoop-2.7.0/bin/hadoop job -kill job_1510052734193_0005 Stage-1的Hadoop作业信息:映射器数量:0;减速器数量:0 2017-11-07 13:51:25,951 Stage-1 map = 0%,reduce = 0% Ended Job = job_1510052734193_0005 with errors 作业期间出错,获取调试信息... **FAILED:执行错误,从 org.apache.hadoop.hive.ql.exec.mr.MapRedTask 返回代码 2 已启动 MapReduce 作业:Stage-Stage-1:MAPRFS 读取:0 MAPRFS 写入:0 FAIL MapReduce CPU 总时间花费:0 mse
在 Ressourcemanager 日志中,我发现了什么:
另外,在我发现的工作系统日志中:
2017-11-07 12:09:46,419 FATAL [main] app.DAGAppMaster:启动 DAGAppMaster java.lang.IllegalArgumentException 时出错:ContainerId 无效:在 org.apache.hadoop.yarn.util.ConverterUtils.toContainerId(ConverterUtils. 182) 在 org.apache.tez.dag.app.DAGAppMaster.main(DAGAppMaster.java:1794) 引起:java.lang.NumberFormatException:对于输入字符串:
java.lang.NumberFormatException.forInputString(NumberFormatException. java:65) 在 java.lang.Long.parseLong(Long.java:441) 在 java.lang.Long.parseLong(Long.java:483) 在 org.apache.hadoop.yarn.util.ConverterUtils.toApplicationAttemptId(ConverterUtils .java:137) 在 org.apache.hadoop.yarn.util.ConverterUtils.toContainerId(ConverterUtils.java:177) ... 还有 1 个
似乎是 Tez 导致了这个问题,有什么解决方案可以解决这个问题吗?谢谢 !
amazon-s3 - Amazon EMR over s3 上的 TezTask 顶点故障
我在 EMR 上创建了 Hive 表,看起来像
当我从 tests3 中选择 * 时,我得到了记录。但是运行任何 tez 任务都会给我以下错误。