问题标签 [hive]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

20888 问题

0 投票

2 回答

1755 浏览

hadoop - hive/hadoop 如何确保每个映射器都处理它的本地数据？

困扰我的2个基本问题：

我如何确定 hive 用于存储我的表的 32 个文件中的每一个都位于其唯一的机器上？
如果发生这种情况，我如何确定如果 hive 创建了 32 个映射器，它们中的每一个都将处理其本地数据？hadoop/hdfs 是否保证了这种魔力，或者作为智能应用程序的 hive 是否确保它会发生？

背景：我有一个由 32 台机器组成的蜂巢集群，并且：

我所有的表都是用"CLUSTERED BY(MY_KEY) INTO 32 BUCKETS"
我用hive.enforce.bucketing = true;
我验证并且确实每个表都存储为用户/配置单元/仓库中的 32 个文件
我使用的 HDFS 复制因子为 2

谢谢！

2011-08-04T12:56:21.010

0 投票

1 回答

661 浏览

hadoop - 理论上可以在蜂巢中进行并置连接（a-la-netezza）吗？

当您连接分布在相同键上的表并在连接条件中使用这些键列时，netezza 中的每个 SPU（机器）都 100% 独立工作（参见nz-interview）。

在hive中，有bucketed map join，但是代表表的文件分配到datanode是HDFS的责任，不是按照hive CLUSTERED BY key来做的！

所以假设我有 2 个表，由相同的键聚集，并且我通过该键加入 - 配置单元可以从 HDFS 获得保证匹配的存储桶将位于同一个节点上吗？还是总是必须将小表的匹配桶移动到包含大表桶的数据节点？

谢谢，伊多

（注意：这是对我之前的问题的更好表述：hive/hadoop 如何确保每个映射器都适用于它的本地数据？）

hadoop hive netezza

2011-08-05T08:20:39.553

0 投票

1 回答

1560 浏览

hadoop - 从 OLTP Mysql 使用 Hadoop Hive 制作 OLAP

我有点混淆了我从 Wiki 中读到的用于制作 OLAP 的 Hadoop 配置单元。现在我想从使用 Mysql 的 OLTP 数据库在 Hive 上制作 OLAP。

我怎么能解决这个问题？我可以在 Hive 中使用 Kettle 制作 OLAP 吗？任何指导如何从 OLTP mysql 在 Hive 上制作 OLAP？

谢了。

hadoop olap hive oltp

2011-08-08T06:06:18.017

0 投票

3 回答

5791 浏览

java - Hive 开箱即用的 json 解析器

我有一个包含要加载到 Hive 的 json 记录的文本文件。我的 json 看起来像：

如您所见，我有一个嵌套的 json，其中包含基元数组和对象数组。

是否可以使用任何内置函数将其按原样加载到 Hive？

约西

java json hadoop hive

2011-08-08T15:13:28.070

0 投票

1 回答

3993 浏览

hadoop - 在 Pentaho hadoop 上创建数据源 Hive

我尝试使用 pentaho hadoop 使用 Hive 数据源制作报表设计器。我已经与 hadoop 建立了联系

然后我创建了指向 Hive 数据库的数据源来访问里面的 Table。

然后当我设计报表并将表格的字段拖到设计器工作区时，会出现错误消息

发生意外错误：生成的 SQL 查询未成功执行。

在 pentaho 完整错误的日志中，如下所示：

我的 Hive 或 Pentaho 配置有什么问题？

我该如何解决这个问题？

hadoop datasource pentaho hive

2011-08-11T03:40:16.850

0 投票

3 回答

4084 浏览

hive - Sqoop 命令 --hive-import 失败

我尝试使用 Hadoop 将数据库从 mysql 导入 Hive，并使用 Sqoop 中的“--hive-import”命令自动创建表并加载数据到 hive。

我使用下面的命令通过 sqoop 执行导入

当我执行此命令时，错误发生如下

我的 sqoop 命令有什么问题？或者在 sqoop 或 hive 中是否有其他配置？

请帮帮我

hive sqoop

2011-08-11T16:38:49.347

0 投票

2 回答

853 浏览

sql - 用 unix sort、uniq 和 awk 替换 SQL 查询

我们目前在 HDFS 集群上有一些数据，我们使用 Hive 在其上生成报告。基础设施正在退役，我们的任务是提出生成数据报告的替代方案（我们将其作为制表符分隔的文件导入到我们的新环境中）

假设我们有一个包含以下字段的表。

询问
IP地址
位置代码

我们曾经在 Hive 上运行的原始 SQL 查询是（不完全是……但类似的东西）

我想知道是否有人可以使用标准 unix/linux 工具（如 sort、uniq 和 awk）为我提供最有效的脚本，这些工具可以替代上述查询。

假设脚本的输入是文本文件的目录。该目录将包含大约 2000 个文件。每个文件将包含任意数量的制表符分隔记录，格式为：

sql sorting awk hive uniq

2011-08-15T18:29:09.050

0 投票

1 回答

1290 浏览

sql - 忽略 Apache Hive 中外部表中的子目录

Hive 在查询外部表时是否有设置或强制它忽略子目录的方法？我的表文件夹中有一个不属于表数据的子目录，我想避免删除它或将文件复制到其他地方。

sql apache hadoop hive hdfs

2011-08-18T21:23:51.090

0 投票

1 回答

108 浏览

cassandra - 嵌入式轻快？可能吗？

我刚刚开始开发一个新应用程序，并决定尝试/学习 Cassandra 并将其用于后端。

我让嵌入式 Cassandra 像魅力一样工作。现在我想在顶部添加 Hive。以前有没有人尝试过嵌入 Brisk（来自 DataStax）？

这甚至可能与所有移动部件一起使用吗？

谢谢！

最大限度

cassandra hive brisk

2011-08-20T07:03:32.910

0 投票

5 回答

8688 浏览

java - 在 Hadoop 上运行 Hive 的问题

我下载了最新的 Hive 版本 0.7.1。

找不到 hadoop 安装：必须设置 $HADOOP_HOME 或 hadoop 必须在路径中

我进入这个目录 /home/hadoop/hive-0.7.1-bin/bin 并尝试运行 Hive Shell。

./hive shell 但我在 CLI 中收到上述错误。

我尝试设置路径： $HADOOP_HOME=home/hadoop/hadoop/bin

我正在使用 Hadoop 0.20.2

java hadoop hive

user244333

2011-08-22T20:19:52.187

1 2 3 4 5 6 7 8 9 10

问题标签 [hive]

Reference