问题标签 [apache-tez]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hive - Hive 错误 - 将数据从一个 DB 表复制到另一个 DB 表时
我想在 EMR 上使用 hive 将数据从一个数据库表复制到另一个数据库表。下面是我用来复制数据和日期分区的 HQL。
错误日志:(状态,以前的作者可能没有写……所以我也不太可能写)
如果我在这里缺少任何配置或任何东西,请提出建议。
hadoop - 为什么映射器和减速器分配在 hive tez 上?
即使在 TEZ 中运行 hive 查询,任何人都可以解释一下,但分配了 Mappers 和 Reducers 吗?
在 Tez 引擎中运行仍然使用 MR 引擎吗?
hadoop - Hive CLI 和 Beeline jdbc:hive2 在执行引擎 tez 中插入百万条记录的行为不同?
从具有数百万条记录(20GB 大小)的大表中执行插入到空表中时。hive CLI 和beeline 中的执行不同。
Hive CLI:它在 Yarn 中创建了两个 TEZ 作业,可能是 mapper 和 reducer,并在大约 413 秒内完成。
Beeline:它在 Yarn 中创建了第一个 TEZ 作业,其他是 MapReduce 作业,超过 150 个作业,大约需要 2 个小时。
这是 TEZ 作业的 hiveserver2 直线的预期行为,因为它在内部创建 MapReduce 作业?
环境细节:
- 蜂巢版本:2.1.1
- Tez 版本:0.8.5
hive 常用设置:
- hive.execution.engine=tez
- hive.mv.files.thread=0
直线设置:
- tez.am.resource.memory.mb=20000
- mapreduce.map.memory.mb=20000
- hive.vectorized.execution.reduce.enabled=false;
提前致谢。
hive - 运行配置单元查询时失败 - 映射运算符初始化失败 - OOM
我正在执行通过加入 3 个表创建的配置单元查询。但是我遇到了错误,即请让我知道这个错误是什么以及如何解决这个错误。
hadoop - 为了加快 hive 进程,如何使用 tez 调整映射器和减速器数量
我尝试了使用 tez 处理大数据(大约 150GB)的过程(句子的词标签),但问题是它花了很多时间(1 周或更长时间),然后
我试图指定映射器的数量。虽然我设置了mapred.map.tasks = 2000,但是我无法阻止mapper被设置为150左右,所以我不能做我想做的事。
我在 oozie 工作流文件中指定地图值并使用 tez.
如何指定映射器的数量?
最后我想加快进程,不用tez也没关系。
另外,我想用reducer计算标记的句子,也需要很多时间。
而且,我还想知道如何调整内存大小以使用每个映射器和减速器进程。
hadoop - 配置大型 Hive 导入作业
我是一个新手,正在尝试获取一个大型(1.25 TB 未压缩)hdfs 文件并将其放入 Hive 托管表中。它已经在具有任意分区的 csv 格式(来自 sqoop)的 HDFS 上,我将其放入更有条理的格式以进行查询和加入。我在使用 Tez 的 HDP 3.0 上。这是我的hql
:
Tez 设置它的方式是(来自我最近的失败):
我已经为此工作了一段时间。起初我无法让第一个map 1
顶点运行,所以我添加了桶。96 个存储桶让第一个映射器运行,但reducer 2
失败的引用磁盘空间问题没有意义。然后我将桶数增加到 9600 并将任务减少到 10000 并且reduce 2
顶点开始运行,尽管速度很慢。今天早上我发现它出错了,因为我的namenode由于垃圾收集器的java堆空间错误而关闭。
有人对我有什么指导建议吗?我觉得我是在黑暗中拍摄减少任务的数量、存储桶的数量以及下面显示的所有配置。
未设置 LLAP
我的集群有 4 个节点、32 个内核和 120 GB 内存。我没有使用超过 1/3 的集群存储。
hadoop - Hive 上小文件的性能问题
我正在阅读一篇关于小文件如何降低配置单元查询性能的文章。 https://community.hitachivantara.com/community/products-and-solutions/pentaho/blog/2017/11/07/working-with-small-files-in-hadoop-part-1
我了解关于重载 NameNode 的第一部分。
但是,他所说的重新分级map-reduce似乎没有发生。对于map-reduce和Tez。
当 MapReduce 作业启动时,它会为每个正在处理的数据块安排一个地图任务
我没有看到每个文件都创建了映射器任务。可能的原因是,他指的是 map-reduce 的第 1 版,之后做了很多更改。
Hive 版本: Hive 1.2.1000.2.6.4.0-91
我的桌子:
数据: 以下代码将创建 100 个小文件,其中仅包含几 kb 的数据。
但是,我只看到为以下查询创建了一个映射器和一个减速器任务。
与 map-reduce 的结果相同。
hive - 数据摄取问题 hive:java.lang.OutOfMemoryError:无法创建新的本机线程
我是一个 hive 新手,并且在将大型 (1TB) HDFS 文件放入分区的 Hive 托管表时遇到了一系列问题。你能帮我解决这个问题吗?我觉得我在某个地方的配置很糟糕,因为我无法完成减速器工作。
这是我的查询:
我的集群规格是:
- 虚拟机集群
- 共 4 个节点
- 4个数据节点
- 32核
- 140 GB 内存
- Hortonworks HDP 3.0
- Apache Tez 作为默认 Hive 引擎
- 我是集群的唯一用户
我的纱线配置是:
我的 Hive 配置是:
我的 tez 配置:
我尝试了无数种配置,包括:
- 分区日期
- 按日期分区,在 svcpt_id 上使用存储桶进行集群
- 日期分区,svcpt 上的布隆过滤器,按 svcpt_id 排序
- 按日期分区,对 svcpt 进行布隆过滤器,按 svcpt_id 分发和排序
我可以让我的映射顶点运行,但我还没有完成我的第一个减速器顶点。这是我在上述查询中的最新示例:
错误是:
我要么得到这个似乎无法解决的 OOM 错误,要么让数据节点脱机并且无法满足我的复制因子要求。
在这一点上,我已经进行了超过 2 周的故障排除。任何我可以支付费用来解决这个问题的专业顾问的联系方式也将不胜感激。
提前致谢!
apache-spark - spark-sql:会话启动时出错 NoClassDefFoundError: org/apache/tez/dag/api/SessionNotRunning
我在启动 spark-sql 会话时遇到问题。
最初,当我启动 spark 会话时,只有默认数据库是可见的(不是 Hive 的默认数据库,而是 Spark 的相同数据库)。
为了查看 hive 数据库,我将 hive-site.xml 从 hive-conf 目录复制到 spark-conf 目录。复制 hive-site.xml 后,出现以下错误。
我能够成功运行 pyspark 和 spark-shell 会话,并且在 pyspark/spark-shell 会话中我可以看到 Hive 数据库。
该错误与 tez 有关,我确认 tez 服务运行良好。我成功地能够通过 hive2 访问 hive 表。
我正在使用 HDP3.0,而 Hive 执行引擎是 Tez(已删除 Map-Reduce)。
hadoop - Ec2 实例中的 Sqoop 和 Hive Tez 未正常运行
我在我的 ec2 文件中的 mapred-site.xml 中有以下设置,我的 Hadoop 正在工作:
使用上述属性集,Sqoop 可以完美运行,但 Hive Tez 不能。所以我将其更改为以下内容:
由于 Hive Tez 需要更多内存,Sqoop 停止工作,并且 Hive Tez 给了我如下错误:
建议我如何使 Sqoop 和 Hive tez 都工作。