问题标签 [hive]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

20888 问题

0 投票

2 回答

775 浏览

hadoop - Apache Hive 更多地用于编程语言还是数据仓库方面？

我曾经认为 Hive 只是一种类似于 SQL 的编程语言，用于使编写 MapReduce 类型的作业更容易（即，类似于 SQL 的 Pig/Pig Latin 版本）。不过，我现在正在阅读更多关于它的内容，显然它实际上是一个完整的数据仓库基础设施。

这些用例之一是否更常见？也就是说，它主要用于它提供的数据仓库基础设施，还是更多地用于类似 SQL 的接口？还是两个方面的效用和重要性相同？

（我问是因为我想弄清楚我应该专注于学习 Hive 的哪些部分。）

hadoop hive

2011-06-19T05:27:54.717

0 投票

3 回答

12773 浏览

hadoop - Hive (Hadoop) 中的 COLLECT_SET()

我刚刚了解了 Hive 中的 collect_set() 函数，并开始在开发 3 节点集群上工作。

我只有大约 10 GB 的空间要处理。然而，这项工作实际上是永远的。我认为 collect_set() 的实现中可能存在错误，我的代码中存在错误，或者 collect_set() 函数确实是资源密集型的。

这是用于 Hive 的我的 SQL（没有双关语）：

有 4 个 MR 通行证。第一个大约需要 30 秒。第二张地图用了大约 1 分钟。第二次减少的大部分时间大约需要 2 分钟。在过去的两个小时内，它从 97.71% 增加到 97.73%。这是正确的吗？我想一定有什么问题。我看了看日志，不知道是否正常。

[日志样本]

我对此很陌生，尝试使用 collect_set() 和 Hive Array 让我远离了深渊。

提前致谢：）

2011-06-21T23:48:50.207

0 投票

9 回答

66514 浏览

java - Hive 中的 COLLECT_SET()，保留重复项？

有没有办法将重复项保存在 Hive 的收集集中，或者使用其他方法模拟 Hive 提供的那种聚合集合？我想将列中具有相同键的所有项目聚合到一个数组中，并带有重复项。

IE：

应该返回：

java hadoop user-defined-functions hive

2011-06-22T19:23:54.750

0 投票

1 回答

762 浏览

maven-2 - 在 Maven 项目中使用 Hive

我有一个项目，我正在从 ant 迁移到 maven。该项目使用了轻度定制的 Hive 构建。我想我只需将此构建导入我们的内部 maven 存储库，并将其列为项目 pom 文件中的依赖项。我遇到的问题是 Hive 构建只是在 build/dist/lib 中生成了一堆 jar。其中一些是核心 Hive jar 本身，一些是 Hive 所依赖的 jar。处理这些问题的最佳方法是什么？我是否应该将所有核心 hive jar 放入我们的内部 repo 并只处理新项目的 pom 文件中未记录的依赖项？或者只是把所有东西都装成一罐罐子，然后把它部署到 repo 中？这种方法会奏效吗？仍然是一个行家新手，感谢您的帮助。

maven-2 maven hive

2011-06-24T23:55:49.233

0 投票

1 回答

957 浏览

hadoop - Hive - 工作跟踪？

我已经通过这些方法，但我似乎无法找出如何推断 Hive 中工作的完成百分比（如 eventListener！）。请帮忙！编辑 - 我认为您可以从客户端获得“我已完成映射......所以我已完成 50%”（如果我要提交命令 OVERWRITE EXTERNAL TABLE）。带有 Brisk 的 OpsCenter（由 Datastax 提供）就是这样做的。

hadoop mapreduce thrift hive

user375566

2011-06-29T00:24:00.520

0 投票

1 回答

438 浏览

java - R Hive 安装问题和故障排除

我正在尝试使用 R 进行分布式文本挖掘。第一步是让 Hive 在本地机器上使用 R。

所以我执行了以下步骤：

在本地机器上安装 Hadoop
在本地机器上启动 R。并安装了 rJava 和 Hive

我遇到的主要问题是 R 的 rJava 和 Hive 使用的 Java 库与 Hadoop 使用的不同。

你遇到过这个问题吗？有什么线索吗？

java r hadoop hive

2011-06-30T03:11:50.607

0 投票

7 回答

11107 浏览

hadoop - sqoop 导入完成但配置单元显示表看不到表

安装 hadoop, hive (CDH 版本) 后我执行

一切正常，但是当我进入 hive 命令行并执行 show tables 时，什么都没有。我使用 ./hadoop fs -ls，我可以看到 /user/(username)/user 存在。

任何帮助表示赞赏。

- -编辑 - - - - - -

导入失败的原因：

hadoop hive hdfs sqoop

2011-07-01T12:44:19.623

0 投票

3 回答

1859 浏览

hbase - Hive：如何按行时间戳检索数据

我正在使用 hive 在 HBase 表上运行选择查询。

我想检索时间戳值低于 X 的所有行。

我的问题是如何创建这样的选择查询（我是否需要以特定方式创建 Hive 表？）

hbase hive

2011-07-05T14:56:42.537

0 投票

1 回答

7209 浏览

hadoop - 解析并加载到 Hive/Hadoop

我是 hadoop map reduce 框架的新手，我正在考虑使用 hadoop map reduce 来解析我的数据。我有数千个大的分隔文件，我正在考虑编写一个 map reduce 作业来解析这些文件并将它们加载到 hive 数据仓库中。我在 perl 中编写了一个解析器，可以解析这些文件。但我坚持对 Hadoop map reduce 做同样的事情

例如：我有一个像 x=ay=bz=c..... x=py=qz=s..... x=1 z=2 .... 这样的文件

现在我必须将此文件作为 hive 表中的列 (x,y,z) 加载，但我无法弄清楚我是否可以继续它。任何与此相关的指导都会非常有帮助。

这样做的另一个问题是有些文件缺少字段 y。我必须在 map reduce 作业中包含该条件。到目前为止，我已经尝试使用 streaming.jar 并将我的 parser.pl 作为映射器作为该 jar 文件的输入。我认为这不是这样做的方法:)，但我只是在尝试是否可行。另外，我想过使用 Hive 的加载功能，但是如果我在 hive 表中指定 regexserde，缺少的列会产生问题。

我现在迷失了，如果有人可以指导我，我将不胜感激:)

问候，阿图尔

hadoop mapreduce hive

2011-07-06T17:56:48.833

0 投票

4 回答

10882 浏览

hadoop - 按现有字段分区 Hive 表？

我可以在插入现有字段时对 Hive 表进行分区吗？

我有一个 10 GB 的文件，其中包含一个日期字段和一个小时字段。我可以将此文件加载到表中，然后插入覆盖到另一个使用这些字段作为分区的分区表中吗？会像以下工作吗？

谢谢！

特拉维斯

hadoop hive partitioning hdfs database-partitioning

2011-07-08T23:07:56.117

1 2 3 4 5 6 7 8 9 10

问题标签 [hive]

Reference