问题标签 [tez]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 我们可以插入外部表吗
我正在我公司的生产环境中调试大数据代码。Hive 返回以下错误:
经过调查,我发现这个错误可能是由 BoneCP 的 connectionPoolingType 属性引起的,但是集群支持团队告诉我他们通过升级 BoneCP 修复了这个错误。
我的问题是:我们可以插入 Hive 中的外部表,因为我对插入脚本有疑问吗?
amazon-web-services - AWS Data Pipeline:Tez 在简单的 HiveActivity 上失败
我正在尝试为我的 POC 运行简单的 AWS Data Pipeline。我的情况如下:从存储在 S3 上的 CSV 获取数据,对它们执行简单的配置单元查询并将结果放回 S3。
我已经创建了非常基本的管道定义并尝试在不同的 emr 版本上运行它:4.2.0 和 5.3.1 - 尽管在不同的地方都失败了。
所以管道定义如下:
CSV 文件如下所示:
HiveActivity 只是一个简单的查询(来自 AWS 文档的副本):
"INSERT OVERWRITE TABLE ${output1} select policyID, statecode from ${input1};"
但是在 emr-5.3.1 上运行时失败:
深入日志,我可以发现以下异常:
在 emr-4.2.0 上运行时,我又发生了一次崩溃:
S3 和 EMR 集群都在同一个区域并在同一个 AWS 账户下运行。我用 S3DataNode 和 EMRCluster 配置尝试了一堆实验,但它总是崩溃。此外,我在 HiveActivity、文档或 github 上都找不到任何数据管道的工作示例。
有人可以帮我弄清楚吗?谢谢你。
cloudera-cdh - tez 构建错误 - shufflehandler
我正在安装基于 Hadoop 2.6.0-cdh5.10.0 的 Tez-0.8.4。我得到了这个错误。当我尝试使用 maven 构建 Tez 源时,请帮助我。
/apache-tez-0.8.4-src/tez-ext-service-tests/src/test/java/org/apache/tez/shufflehandler/ShuffleHandler.java:[370,18] 找不到符号 [ERROR] 符号:方法 getHeader(java.lang.String) [ERROR] 位置:org.jboss.netty.handler.codec.http.HttpRequest 类型的变量请求
performance - 加入 Tez 中的两张大桌子
是否有任何建议可以加快连接两个非常大的配置单元表 (> 2 TB) 的查询性能?使用的执行引擎是 Tez 。这两个表都是未分区的并且是文本格式的。集群有 64 个节点,每个节点有 128 GB 内存。
hadoop - tez 上的 hive 不支持 hdfs 联盟
hive 版本是 apache hive-2.1.0
tez 版本是 apachetez-0.8.4
我设置tez.lib.uris=viewfs://nsX/nameservice/hive/lib/tez-0.8.4-zdh7.1.1-SNAPSHOT-minimal.tar.gz
当我在 hive 上运行 tez 作业时,它总是出现问题
hadoop - hadoop - 如何杀死由 hive 启动的 TEZ 作业?
以下是我能找到的。但问题是如果我们重用 jdbc hive 会话,所有 hive 查询都使用相同的 Application-Id。有什么办法可以杀死一个dag?
可以使用以下命令列出 Tez 作业:yarn application -list
可以使用以下命令终止 Tez 作业:yarn application -kill Application-Id
hadoop - 在 hive 中使用“Collect_List()”函数时出错
每当我在 Hive 上运行函数“collect_list”时,它总是会抛出一个错误:
这是示例:
数据:
我在 hive 的终端上运行查询,这是我的查询:
我想要这样的结果:
在使用 collect_list 功能之前我需要配置一些东西吗?谢谢你。
apache-spark - Tez 上的 Hive 在 Spark 2 中不起作用
当使用 HDP 2.5 和 spark 1.6.2 时,我们使用带有 Tez 的 Hive 作为其执行引擎并且它工作正常。
但是当我们使用 spark 2.1.0 迁移到 HDP 2.6 时,Hive 无法使用 Tez 作为其执行引擎,并且在DataFrame.saveAsTable
调用 API 时会引发以下异常:
java.lang.NoClassDefFoundError: org/apache/tez/dag/api/SessionNotRunning
at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:529)
at org.apache.spark.sql.hive.client.HiveClientImpl.<init> HiveClientImpl.scala:188)
在查看了这个问题的答案之后,我们将 hive 执行引擎切换到 MR (MapReduce) 而不是 Tez 并且它起作用了。
但是,我们希望在 Tez 上与 Hive 合作。为了让 Tez 上的 Hive 工作,解决上述异常需要什么?
hadoop - Hive 执行“插入......值......”非常慢
我建立了一个 hadoop & hive 集群并尝试做一些测试。但它真的很慢。
桌子
表值计数
sql执行
我已经多次执行这个 sql,每次大约需要 4 或 5 分钟
hadoop 容器日志
hadoop 集群模式
而 app05/08/09/10 是我的测试版机器,每台都有 32 个 vcore 和 48GB 内存。
hadoop 配置
核心站点.xml
hdfs-site.xml
maprd-site.xml
tez-site.xml
纱线站点.xml