问题标签 [hive]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1755 浏览

hadoop - hive/hadoop 如何确保每个映射器都处理它的本地数据?

困扰我的2个基本问题:

  • 我如何确定 hive 用于存储我的表的 32 个文件中的每一个都位于其唯一的机器上?
  • 如果发生这种情况,我如何确定如果 hive 创建了 32 个映射器,它们中的每一个都将处理其本地数据?hadoop/hdfs 是否保证了这种魔力,或者作为智能应用程序的 hive 是否确保它会发生?

背景:我有一个由 32 台机器组成的蜂巢集群,并且:

  • 我所有的表都是用"CLUSTERED BY(MY_KEY) INTO 32 BUCKETS"
  • 我用hive.enforce.bucketing = true;
  • 我验证并且确实每个表都存储为用户/配置单元/仓库中的 32 个文件
  • 我使用的 HDFS 复制因子为 2

谢谢!

0 投票
1 回答
661 浏览

hadoop - 理论上可以在蜂巢中进行并置连接(a-la-netezza)吗?

当您连接分布在相同键上的表并在连接条件中使用这些键列时,netezza 中的每个 SPU(机器)都 100% 独立工作(参见nz-interview)。

在hive中,有bucketed map join,但是代表表的文件分配到datanode是HDFS的责任,不是按照hive CLUSTERED BY key来做的!

所以假设我有 2 个表,由相同的键聚集,并且我通过该键加入 - 配置单元可以从 HDFS 获得保证匹配的存储桶将位于同一个节点上吗?还是总是必须将小表的匹配桶移动到包含大表桶的数据节点?

谢谢,伊多

(注意:这是对我之前的问题的更好表述:hive/hadoop 如何确保每个映射器都适用于它的本地数据?

0 投票
1 回答
1560 浏览

hadoop - 从 OLTP Mysql 使用 Hadoop Hive 制作 OLAP

我有点混淆了我从 Wiki 中读到的用于制作 OLAP 的 Hadoop 配置单元。现在我想从使用 Mysql 的 OLTP 数据库在 Hive 上制作 OLAP。

我怎么能解决这个问题?我可以在 Hive 中使用 Kettle 制作 OLAP 吗?任何指导如何从 OLTP mysql 在 Hive 上制作 OLAP?

谢了。

0 投票
3 回答
5791 浏览

java - Hive 开箱即用的 json 解析器

我有一个包含要加载到 Hive 的 json 记录的文本文件。我的 json 看起来像:

如您所见,我有一个嵌套的 json,其中包含基元数组和对象数组。

是否可以使用任何内置函数将其按原样加载到 Hive?

约西

0 投票
1 回答
3993 浏览

hadoop - 在 Pentaho hadoop 上创建数据源 Hive

我尝试使用 pentaho hadoop 使用 Hive 数据源制作报表设计器。我已经与 hadoop 建立了联系

然后我创建了指向 Hive 数据库的数据源来访问里面的 Table。

然后当我设计报表并将表格的字段拖到设计器工作区时,会出现错误消息

发生意外错误:生成的 SQL 查询未成功执行。

在 pentaho 完整错误的日志中,如下所示:

我的 Hive 或 Pentaho 配置有什么问题?

我该如何解决这个问题?

0 投票
3 回答
4084 浏览

hive - Sqoop 命令 --hive-import 失败

我尝试使用 Hadoop 将数据库从 mysql 导入 Hive,并使用 Sqoop 中的“--hive-import”命令自动创建表并加载数据到 hive。

我使用下面的命令通过 sqoop 执行导入

当我执行此命令时,错误发生如下

我的 sqoop 命令有什么问题?或者在 sqoop 或 hive 中是否有其他配置?

请帮帮我

0 投票
2 回答
853 浏览

sql - 用 unix sort、uniq 和 awk 替换 SQL 查询

我们目前在 HDFS 集群上有一些数据,我们使用 Hive 在其上生成报告。基础设施正在退役,我们的任务是提出生成数据报告的替代方案(我们将其作为制表符分隔的文件导入到我们的新环境中)

假设我们有一个包含以下字段的表。

  • 询问
  • IP地址
  • 位置代码

我们曾经在 Hive 上运行的原始 SQL 查询是(不完全是……但类似的东西)

我想知道是否有人可以使用标准 unix/linux 工具(如 sort、uniq 和 awk)为我提供最有效的脚本,这些工具可以替代上述查询。

假设脚本的输入是文本文件的目录。该目录将包含大约 2000 个文件。每个文件将包含任意数量的制表符分隔记录,格式为:

0 投票
1 回答
1290 浏览

sql - 忽略 Apache Hive 中外部表中的子目录

Hive 在查询外部表时是否有设置或强制它忽略子目录的方法?我的表文件夹中有一个不属于表数据的子目录,我想避免删除它或将文件复制到其他地方。

0 投票
1 回答
108 浏览

cassandra - 嵌入式轻快?可能吗?

我刚刚开始开发一个新应用程序,并决定尝试/学习 Cassandra 并将其用于后端。

我让嵌入式 Cassandra 像魅力一样工作。现在我想在顶部添加 Hive。以前有没有人尝试过嵌入 Brisk(来自 DataStax)?

这甚至可能与所有移动部件一起使用吗?

谢谢!

最大限度

0 投票
5 回答
8688 浏览

java - 在 Hadoop 上运行 Hive 的问题

我下载了最新的 Hive 版本 0.7.1。

找不到 hadoop 安装:必须设置 $HADOOP_HOME 或 hadoop 必须在路径中

我进入这个目录 /home/hadoop/hive-0.7.1-bin/bin 并尝试运行 Hive Shell。

./hive shell 但我在 CLI 中收到上述错误。

我尝试设置路径: $HADOOP_HOME=home/hadoop/hadoop/bin

我正在使用 Hadoop 0.20.2