问题标签 [hive]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

20888 问题

0 投票

2 回答

19676 浏览

hadoop - 在 Hive 中，“加载数据本地路径”是否覆盖现有数据或追加？

我希望在 cron 上运行导入 Hive，并希望只使用

“将数据本地路径'/tmp/data/x'加载到表X中”到表中就足够了。

后续命令会覆盖表中已有的内容吗？还是会追加？

2011-04-04T23:09:22.143

0 投票

2 回答

412 浏览

hadoop - 对大型动态数据集进行分析查询

我有一个要求，我有大量传入数据到我拥有的系统中。

该集合中的单个数据单元具有一组附加的不可变属性 + 状态。状态是动态的，可以随时更改。

要求如下——

大型数据集可能会经历状态变化。更新需要快速。
我应该能够聚合以各种属性为中心的数据。
理想情况下 - 应该有一种方法可以将单个数据单元与聚合结果相关联，即我想深入研究产生某种聚合的特定事务。（我知道这里的竞争条件，例如在执行聚合后数据单元的状态发生变化；但这是意料之中的）。
所有聚合都是基于时间的 - 即在一天、2 天、一周、一个月等中枢轴 y 上的 x 总和。

我正在评估不同的技术来满足这些用例，并想听听您的建议。我查看了适合分析/聚合用例的 Hive/Pig。但是，我担心随时可能进入系统的大量更新。与索引数据库（sql 或 nosql）相比，我不确定这在 HDFS 文件上的表现如何。

hadoop apache-pig hive

2011-04-08T20:57:02.230

0 投票

8 回答

65545 浏览

syntax - 是否存在相当于 SQL“不喜欢”的 Hive

虽然 Hive 支持积极的类似查询：例如。

select * from table_name where column_name like 'root~%' ;

Hive不支持否定查询：例如。

select * from table_name where column_name not like 'root~%' ;

有谁知道 Hive 支持的等效解决方案？

syntax hive sql-like

2011-04-11T21:53:10.993

0 投票

2 回答

4179 浏览

hadoop - 有什么好的开源分析前端工具吗？

是否有任何好的开源基于 Web 的前端分析工具可以与 HIVE/HDFS 进行数据通信？

hadoop hive web-analytics-tools

2011-04-11T22:27:43.997

0 投票

7 回答

72837 浏览

syntax - Hive：将列标题写入本地文件？

再次缺少 Hive 文档：

我想将查询结果以及列名写入本地文件。

Hive 支持这个吗？

另外，单独的问题：StackOverflow 是获得 Hive 帮助的最佳场所吗？@Nija，非常有帮助，但我不会一直打扰他们......

syntax hive

2011-04-13T23:31:04.360

0 投票

0 回答

925 浏览

hadoop - 使用 Apache Hive 作为 MapReduce 输入格式和/或抓取 Hive 元数据

我们的环境非常重视在 hive 中存储数据。我发现自己目前正在做一些超出范围的事情。我编写了一个 mapreduce，但它需要大量直接用户输入来获取可以轻松从 Hive 中抓取的信息。也就是说，当我查询 hive 以获取扩展表数据时，所有扩展信息都被丢弃在 1 或 2 列中，作为几乎 JSON 的巨大 blob。是否有一种方便的方法来解析这些信息，或者更好的是，直接在更直接的庄园中获取它？

或者，如果我可以得到有关手动使用 CombinedHiveInputFormat 的文档，那将大大简化我的代码。但似乎 InputFormat 仅在 Hive 内部使用，使用它的自定义结构。

最终，我想要知道映射器正在处理的拆分的表名、列（不包括分区）和分区位置。如果还有另一种方法可以做到这一点，我很想知道。

hadoop hql mapreduce hive

2011-04-14T19:44:59.000

0 投票

1 回答

4184 浏览

hive - Hadoop Hive - 拆分字符串

我是一个新的蜂巢。

我的查询：在日志文件中，我们有一个像这样的请求字段“GET /img/home/search-user-ico.jpg HTTP/1.1”。有超过 10,000 条记录可用。

例子：

"GET /img/home/search-user-ico.jpg HTTP/1.1"
"GET /JavaScript/jquery-1.4.2.min.js HTTP/1.1" "GET /ems/home HTTP/1.1" "POST /ir HTTP/1.1" "GET /CSS/jquery/themes/base/jquery.ui.button.css HTTP/1.1" "GET /CSS/jquery/themes/base/images/ui-bg_glass_75_e6e6e6_1x400.png HTTP/1.1"
"GET /JavaScript/jquery/jquery-ui-1.8.5.custom.min.js HTTP/1.0"

从这个字段“GET /img/home/search-user-ico.jpg HTTP/1.1”，我只想要这部分/img/home/search-user-ico.jpg，我想把它从GET、POST和HTTP/1.1 所以请帮助我如何使用 wiki 中可用的字符串函数来拆分它。我尝试了 wiki 中可用的一些语法。但我现在很无助。

我试过这样的语法，

从日志文件限制 10 中选择 regexp_extract(request,'a-zA-Za-zA-Z[a-zA-Z]',2)；

从日志文件限制 10 中选择 regexp_extract(request,'GET(\s)([a-zA-Z])',2);

从日志文件限制 10中选择 regexp_extract(request,'. ?(\s)(. ?)(\s)(.*?)',2);

从日志文件限制 10中选择 regexp_extract(request,'. (\s)(. )(\s)(.*)',2)；

谢谢-乔

hive

2011-04-20T05:07:03.640

0 投票

1 回答

14666 浏览

hadoop - 对存储在 Hive 中的数据运行 Pig 查询

我想知道如何运行以 Hive 格式存储的 Pig 查询。我已将 Hive 配置为存储压缩数据（使用本教程http://wiki.apache.org/hadoop/Hive/CompressedStorage）。

在此之前，我曾经只是使用带有 Hive 分隔符 (^A) 的普通 Pig 加载功能。但是现在 Hive 将数据存储在经过压缩的序列文件中。使用哪个加载函数？

请注意，不需要像这里提到的那样紧密集成：Using Hive with Pig，只是使用什么加载函数来读取 Hive 生成的压缩序列文件。

感谢所有的答案。

hadoop apache-pig hive

2011-04-21T07:50:22.120

0 投票

3 回答

90318 浏览

group-by - 蜂巢表达式不在分组中

我在 HIVE 中创建了一个表。它具有以下列：

我想每月获得平均（排名）。我可以使用这个命令。有用。

但是，我也想获取日期信息。我使用这个命令：

它抱怨：Expression Not In Group By Key

group-by hive hiveql

2011-04-21T16:00:31.470

0 投票

3 回答

28361 浏览

hadoop - 将数据从 HDFS 导入 Hive 表

我在 HDFS 的 data/2011/01/13/0100/file 中有我的数据，每个文件都包含制表符分隔的数据，比如名称、ip、url。

我想在 Hive 中创建一个表并从 hdfs 导入数据，表应该包含时间、名称、ip 和 url。

如何使用 Hive 导入这些？r 数据应该是其他格式，以便我也可以导入时间？

hadoop hdfs hive

2011-04-22T23:22:59.987

1 2 3 4 5 6 7 8 9 10

问题标签 [hive]

Reference