“tez”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

142 浏览

hadoop - 确定在 Pig 脚本中启动的 Mappers 和 Reducer 的数量

我正在使用 Hortonworks 的沙盒虚拟机来运行Hadoop服务。我在模式下执行了一个Pig过滤器脚本。Tez与不同Hive的是，Pig日志（控制台）不显示有关正在执行的映射器和减速器数量的任何信息。我看错地方了吗？

2016-11-10T23:29:28.377

0 投票

2 回答

6366 浏览

hadoop - 蜂巢查询 BlockMissingException

我在 TEZ 和 MapReduce 执行引擎上都遇到了问题。两者似乎都与权限有关，但对于我的生活，我迷失了。

当我通过 TEZ 执行它时，我收到以下消息：

org.apache.hadoop.hdfs.BlockMissingException：无法获取块：BP-300459168-127.0.1.1-1478287363661:blk_1073741961_1140 文件=/tmp/hive/hiveuser/_tez_session_dir/03029ffd-a9c2-43de-8532-1ecatalogf3 -core.jar

查看 HDFS 中的文件权限，但它们看起来是正确的：

drwx------ hiveuser hadoop 0 2016-11-11 09:54 /tmp/hive/hiveuser/_tez_session_dir/03029ffd-a9c2-43de-8532-1e1f322ec0cd

drwx------ hiveuser hadoop 0 2016-11-11 09:54 /tmp/hive/hiveuser/_tez_session_dir/03029ffd-a9c2-43de-8532-1e1f322ec0cd/.tez

-rw-r--r-- 3 hiveuser hadoop 259706 2016-11-11 09:54 /tmp/hive/hiveuser/_tez_session_dir/03029ffd-a9c2-43de-8532-1e1f322ec0cd/hive-hcatalog-core.jar

在 MapReduce 上，消息是这样的

无法获取块：BP-300459168-127.0.1.1-1478287363661:blk_1073741825_1001 文件=/hdp/apps/2.5.0.0-1245/mapreduce/mapreduce.tar.gz

该文件的文件权限

-r--r--r-- 3 hdfsuser hadoop 51232019 2016-11-04 16:40 /hdp/apps/2.5.0.0-1245/mapreduce/mapreduce.tar.gz

谁能告诉我我在那里想念什么？请？

hadoop mapreduce hive hortonworks-data-platform tez

2016-11-11T16:02:34.313

0 投票

2 回答

2148 浏览

hadoop - Hive Container 运行超出物理限制

我经常在蜂巢中收到错误消息container running beyond physical memory limits. Current usage: 4.7 GB of 4GB physical memory used; 12.1 GB of 8.4 GB virtual memory used. Killing container

我使用 jdbc 连接在 scala 中执行此操作。

我的默认执行引擎是 tez。如果将 hive 执行引擎更改为 mr 它工作正常。

如果我在 hive cli 中执行相同的查询，在 tez 上它可以正常工作。

正如在各种论坛中所说，我尝试更改容器大小，但没有帮助。

似乎上述设置并没有有效地增加容器大小。

它也占用了整个集群。

我的问题是：

有什么方法可以限制为 hive 查询生成的容器数量，以便集群不会因为大查询而停止？
我们怎样才能增加容器的大小？
除了增加容器大小之外，还有什么办法吗？

hive version: 1.2.1

hdp: 2.3.2

hadoop hive tez

2016-11-16T14:20:11.160

0 投票

0 回答

327 浏览

hadoop - 带 tez 的蜂巢和带 tez 的猪之间的区别

我想知道 hive 与 tez 和 pig 与 tez 的区别。为什么在带有 tez 的 hive 中使用的地图和减速器数量可以在控制台中看到，但在 pig 中我们只能看到启动的任务数量。为什么

如何用 tez 计算在 pig 中启动的减速器............

如何使用 MR 计算在 hive 中启动的减速器。

基于默认配置，我相信使用 MR 在 hive 中启动的 reducer 数量取决于数据大小

当我在 Hive 中使用 MR 进行不同操作时，它使用 3 个 Mapper 和 7 个 reducer，数据大小仅为 426 MB。并且该作业作为单个作业运行。

如何在 Hive 和 MR、Hive 和 Tez、PIg 和 Tez/ 中计算减速器

hadoop hive apache-pig tez

2016-11-16T22:46:05.863

0 投票

1 回答

306 浏览

hadoop - Hive 2.1 不能正确评估 NULL 映射

我正在尝试找到一种解决方法来检查 Hive 2.1 中的 NULL 映射。当我检查地图内的键时，我得到了正确的结果。这是我要评估的内容以及结果：

但是，我在旧版本的 Hive 上没有同样的问题（例如在 Hive 1.1 上）：

我可以添加我在 AWS EMR 5.2 上运行的第一个查询，第二个查询在本地 CDH5.4 集群上运行。

有人可以给我一些见解吗？

hadoop null hive emr tez

2016-11-26T00:26:22.380

0 投票

0 回答

1329 浏览

hive - HIVE（不）何时在分区上使用 WHERE 子句作为谓词过滤器

我有两个表，tbl_a并且tbl_b都格式化为 ORC，并在列上分区dt。一个表使用分区格式%Y%m%d%H%M，而另一个表使用%Y%m%d.

当我查看 Hive 1.2.1.2.4（使用 TEZ 0.7.0.2.4）中一个简单的 SELECT + WHERE 语句的执行计划时，我只看到为设置的谓词过滤器tbl_a，但看不到另一个tbl_b。这意味着，tbl_b将执行全表扫描，而不仅仅是对所需分区的扫描。两个查询的分区都存在并包含数据。

这种行为对我来说不是很清楚。哪个条件决定是否将 where 条件用作谓词过滤器？

hive predicate partition tez

2016-12-21T14:57:34.577

0 投票

3 回答

4175 浏览

amazon-web-services - Hive 中的 Tez 执行引擎与 Mapreduce 执行引擎

Hive 中的 Tez 引擎和 Map Reduce 引擎有什么区别，在哪个进程中使用哪个引擎更好（例如：joins、aggregation？）

amazon-web-services hive mapreduce tez bigdata

2017-01-13T09:13:11.697

0 投票

1 回答

1395 浏览

performance - 如何调整 hive 以查询元数据？

如果我在具有某些分区列的表上运行下面的 hive 查询，我想确保 hive 不会进行全表扫描，而只是从元数据本身中找出结果。有什么办法可以启用它吗？

现在，当我运行这个查询时，它会启动 map reduce 任务，我确信它会进行数据扫描，同时它可以很好地从元数据本身中找出值。

performance hadoop hive hdfs tez

2017-01-31T00:22:19.047

0 投票

1 回答

77 浏览

hadoop - 从 salesforce 提取数据时只有 1 个地图任务

Datameer 中的几个提取作业（快速 ETL/BI 工具，位于 hadoop 之上）正在从 salesforce 对象中读取数据。最大提取为 1.4 GB（任务对象），最小提取为 96 MB（帐户对象）。Datameer 使用基于 REST API 的连接器，向连接器提供 SOQL 查询并相应地获取记录 ( https://documentation.datameer.com/documentation/display/DAS60/Salesforce )。

Datameer 编译作业并将执行移交给执行框架 (Tez)。也没有特定于作业的配置。

所有 saleforce 提取作业都使用 1 个 Map 任务运行。

但，

datameer 中还有其他提取作业，它们从 sftp 服务器上的平面文件（50 - 200 MB）读取数据并使用 3-5 个映射任务。

关于 SOQL：https ://developer.salesforce.com/docs/atlas.en-us.soql_sosl.meta/soql_sosl/sforce_api_calls_soql_sharing_batch_size.htm SOQL 每批最多提取 2000 条记录

我的问题：

考虑到平面文件中的数据与多个映射任务一起运行，问题是否对应于 SOQL 批量大小，每个请求仅提取 2000 条记录，因此仅分配 1 个映射器。
在处理像 salesforce 这样的源时，MR 程序如何确定输入提取的总大小，甚至是基于云的
数据库。

环境信息：Hortonwork 2.7.1

hadoop salesforce soql tez

2017-02-03T00:10:27.343

0 投票

1 回答

663 浏览

apache - 在不使用滑块的情况下为 LLAP 配置 Apache Hive

Hive 中有一个名为 LLAP 的新功能。在调查过程中，我发现配置 LLAP 非常困难，因此有一个名为 Apache Slider 的组件将对其进行配置。如果没有 Slider，我仍然找不到任何手动配置的文档。https://cwiki.apache.org/confluence/display/Hive/LLAP

apache hive apache-hive tez

2017-02-21T10:16:10.100

问题标签 [tez]

Reference