问题标签 [tez]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
142 浏览

hadoop - 确定在 Pig 脚本中启动的 Mappers 和 Reducer 的数量

我正在使用 Hortonworks 的沙盒虚拟机来运行Hadoop服务。我在模式下执行了一个Pig过滤器脚本。Tez与 不同Hive的是,Pig日志(控制台)不显示有关正在执行的映射器和减速器数量的任何信息。我看错地方了吗?

0 投票
2 回答
6366 浏览

hadoop - 蜂巢查询 BlockMissingException

我在 TEZ 和 MapReduce 执行引擎上都遇到了问题。两者似乎都与权限有关,但对于我的生活,我迷失了。

当我通过 TEZ 执行它时,我收到以下消息:

org.apache.hadoop.hdfs.BlockMissingException:无法获取块:BP-300459168-127.0.1.1-1478287363661:blk_1073741961_1140 文件=/tmp/hive/hiveuser/_tez_session_dir/03029ffd-a9c2-43de-8532-1ecatalogf3 -core.jar

查看 HDFS 中的文件权限,但它们看起来是正确的:

drwx------ hiveuser hadoop 0 2016-11-11 09:54 /tmp/hive/hiveuser/_tez_session_dir/03029ffd-a9c2-43de-8532-1e1f322ec0cd

drwx------ hiveuser hadoop 0 2016-11-11 09:54 /tmp/hive/hiveuser/_tez_session_dir/03029ffd-a9c2-43de-8532-1e1f322ec0cd/.tez

-rw-r--r-- 3 hiveuser hadoop 259706 2016-11-11 09:54 /tmp/hive/hiveuser/_tez_session_dir/03029ffd-a9c2-43de-8532-1e1f322ec0cd/hive-hcatalog-core.jar

在 MapReduce 上,消息是这样的

无法获取块:BP-300459168-127.0.1.1-1478287363661:blk_1073741825_1001 文件=/hdp/apps/2.5.0.0-1245/mapreduce/mapreduce.tar.gz

该文件的文件权限

-r--r--r-- 3 hdfsuser hadoop 51232019 2016-11-04 16:40 /hdp/apps/2.5.0.0-1245/mapreduce/mapreduce.tar.gz

谁能告诉我我在那里想念什么?请?

0 投票
2 回答
2148 浏览

hadoop - Hive Container 运行超出物理限制

我经常在蜂巢中收到错误消息container running beyond physical memory limits. Current usage: 4.7 GB of 4GB physical memory used; 12.1 GB of 8.4 GB virtual memory used. Killing container

我使用 jdbc 连接在 scala 中执行此操作。

我的默认执行引擎是 tez。如果将 hive 执行引擎更改为 mr 它工作正常。

如果我在 hive cli 中执行相同的查询,在 tez 上它可以正常工作。

正如在各种论坛中所说,我尝试更改容器大小,但没有帮助。

似乎上述设置并没有有效地增加容器大小。

它也占用了整个集群。

我的问题是:

  1. 有什么方法可以限制为 hive 查询生成的容器数量,以便集群不会因为大查询而停止?
  2. 我们怎样才能增加容器的大小?
  3. 除了增加容器大小之外,还有什么办法吗?

    hive version: 1.2.1

    hdp: 2.3.2

0 投票
0 回答
327 浏览

hadoop - 带 tez 的蜂巢和带 tez 的猪之间的区别

我想知道 hive 与 tez 和 pig 与 tez 的区别。为什么在带有 tez 的 hive 中使用的地图和减速器数量可以在控制台中看到,但在 pig 中我们只能看到启动的任务数量。为什么

如何用 tez 计算在 pig 中启动的减速器............

如何使用 MR 计算在 hive 中启动的减速器。

基于默认配置,我相信使用 MR 在 hive 中启动的 reducer 数量取决于数据大小

当我在 Hive 中使用 MR 进行不同操作时,它使用 3 个 Mapper 和 7 个 reducer,数据大小仅为 426 MB。并且该作业作为单个作业运行。

如何在 Hive 和 MR、Hive 和 Tez、PIg 和 Tez/ 中计算减速器

0 投票
1 回答
306 浏览

hadoop - Hive 2.1 不能正确评估 NULL 映射

我正在尝试找到一种解决方法来检查 Hive 2.1 中的 NULL 映射。当我检查地图内的键时,我得到了正确的结果。这是我要评估的内容以及结果:

但是,我在旧版本的 Hive 上没有同样的问题(例如在 Hive 1.1 上):

我可以添加我在 AWS EMR 5.2 上运行的第一个查询,第二个查询在本地 CDH5.4 集群上运行。

有人可以给我一些见解吗?

0 投票
0 回答
1329 浏览

hive - HIVE(不)何时在分区上使用 WHERE 子句作为谓词过滤器

我有两个表,tbl_a并且tbl_b都格式化为 ORC,并在列上分区dt。一个表使用分区格式%Y%m%d%H%M,而另一个表使用%Y%m%d.

当我查看 Hive 1.2.1.2.4(使用 TEZ 0.7.0.2.4)中一个简单的 SELECT + WHERE 语句的执行计划时,我只看到为 设置的谓词过滤器tbl_a,但看不到另一个tbl_b。这意味着,tbl_b将执行全表扫描,而不仅仅是对所需分区的扫描。两个查询的分区都存在并包含数据。

这种行为对我来说不是很清楚。哪个条件决定是否将 where 条件用作谓词过滤器?

0 投票
3 回答
4175 浏览

amazon-web-services - Hive 中的 Tez 执行引擎与 Mapreduce 执行引擎

Hive 中的 Tez 引擎和 Map Reduce 引擎有什么区别,在哪个进程中使用哪个引擎更好(例如:joins、aggregation?)

0 投票
1 回答
1395 浏览

performance - 如何调整 hive 以查询元数据?

如果我在具有某些分区列的表上运行下面的 hive 查询,我想确保 hive 不会进行全表扫描,而只是从元数据本身中找出结果。有什么办法可以启用它吗?

现在,当我运行这个查询时,它会启动 map reduce 任务,我确信它会进行数据扫描,同时它可以很好地从元数据本身中找出值。

0 投票
1 回答
77 浏览

hadoop - 从 salesforce 提取数据时只有 1 个地图任务

Datameer 中的几个提取作业(快速 ETL/BI 工具,位于 hadoop 之上)正在从 salesforce 对象中读取数据。最大提取为 1.4 GB(任务对象),最小提取为 96 MB(帐户对象)。Datameer 使用基于 REST API 的连接器,向连接器提供 SOQL 查询并相应地获取记录 ( https://documentation.datameer.com/documentation/display/DAS60/Salesforce )。

Datameer 编译作业并将执行移交给执行框架 (Tez)。也没有特定于作业的配置。

所有 saleforce 提取作业都使用 1 个 Map 任务运行。

但,

datameer 中还有其他提取作业,它们从 sftp 服务器上的平面文件(50 - 200 MB)读取数据并使用 3-5 个映射任务。

关于 SOQL:https ://developer.salesforce.com/docs/atlas.en-us.soql_sosl.meta/soql_sosl/sforce_api_calls_soql_sharing_batch_size.htm SOQL 每批最多提取 2000 条记录

我的问题 :

  • 考虑到平面文件中的数据与多个映射任务一起运行,问题是否对应于 SOQL 批量大小,每个请求仅提取 2000 条记录,因此仅分配 1 个映射器。
  • 在处理像 salesforce 这样的源时,MR 程序如何确定输入提取的总大小,甚至是基于云的
    数据库。

环境信息:Hortonwork 2.7.1

0 投票
1 回答
663 浏览

apache - 在不使用滑块的情况下为 LLAP 配置 Apache Hive

Hive 中有一个名为 LLAP 的新功能。在调查过程中,我发现配置 LLAP 非常困难,因此有一个名为 Apache Slider 的组件将对其进行配置。如果没有 Slider,我仍然找不到任何手动配置的文档。https://cwiki.apache.org/confluence/display/Hive/LLAP