问题标签 [hive]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
19676 浏览

hadoop - 在 Hive 中,“加载数据本地路径”是否覆盖现有数据或追加?

我希望在 cron 上运行导入 Hive,并希望只使用

“将数据本地路径'/tmp/data/x'加载到表X中”到表中就足够了。

后续命令会覆盖表中已有的内容吗?还是会追加?

0 投票
2 回答
412 浏览

hadoop - 对大型动态数据集进行分析查询

我有一个要求,我有大量传入数据到我拥有的系统中。

该集合中的单个数据单元具有一组附加的不可变属性 + 状态。状态是动态的,可以随时更改。

要求如下——

  1. 大型数据集可能会经历状态变化。更新需要快速。
  2. 我应该能够聚合以各种属性为中心的数据。
  3. 理想情况下 - 应该有一种方法可以将单个数据单元与聚合结果相关联,即我想深入研究产生某种聚合的特定事务。(我知道这里的竞争条件,例如在执行聚合后数据单元的状态发生变化;但这是意料之中的)。
  4. 所有聚合都是基于时间的 - 即在一天、2 天、一周、一个月等中枢轴 y 上的 x 总和。

我正在评估不同的技术来满足这些用例,并想听听您的建议。我查看了适合分析/聚合用例的 Hive/Pig。但是,我担心随时可能进入系统的大量更新。与索引数据库(sql 或 nosql)相比,我不确定这在 HDFS 文件上的表现如何。

0 投票
8 回答
65545 浏览

syntax - 是否存在相当于 SQL“不喜欢”的 Hive

虽然 Hive 支持积极的类似查询:例如。

select * from table_name where column_name like 'root~%' ;

Hive支持否定查询:例如。

select * from table_name where column_name not like 'root~%' ;

有谁知道 Hive 支持的等效解决方案?

0 投票
2 回答
4179 浏览

hadoop - 有什么好的开源分析前端工具吗?

是否有任何好的开源基于 Web 的前端分析工具可以与 HIVE/HDFS 进行数据通信?

0 投票
7 回答
72837 浏览

syntax - Hive:将列标题写入本地文件?

再次缺少 Hive 文档:

我想将查询结果以及列名写入本地文件。

Hive 支持这个吗?

另外,单独的问题:StackOverflow 是获得 Hive 帮助的最佳场所吗?@Nija,非常有帮助,但我不会一直打扰他们......

0 投票
0 回答
925 浏览

hadoop - 使用 Apache Hive 作为 MapReduce 输入格式和/或抓取 Hive 元数据

我们的环境非常重视在 hive 中存储数据。我发现自己目前正在做一些超出范围的事情。我编写了一个 mapreduce,但它需要大量直接用​​户输入来获取可以轻松从 Hive 中抓取的信息。也就是说,当我查询 hive 以获取扩展表数据时,所有扩展信息都被丢弃在 1 或 2 列中,作为几乎 JSON 的巨大 blob。是否有一种方便的方法来解析这些信息,或者更好的是,直接在更直接的庄园中获取它?

或者,如果我可以得到有关手动使用 CombinedHiveInputFormat 的文档,那将大大简化我的代码。但似乎 InputFormat 仅在 Hive 内部使用,使用它的自定义结构。

最终,我想要知道映射器正在处理的拆分的表名、列(不包括分区)和分区位置。如果还有另一种方法可以做到这一点,我很想知道。

0 投票
1 回答
4184 浏览

hive - Hadoop Hive - 拆分字符串

我是一个新的蜂巢。

我的查询:在日志文件中,我们有一个像这样的请求字段“GET /img/home/search-user-ico.jpg HTTP/1.1”。有超过 10,000 条记录可用。

例子 :

"GET /img/home/search-user-ico.jpg HTTP/1.1"
"GET /JavaScript/jquery-1.4.2.min.js HTTP/1.1" "GET /ems/home HTTP/1.1" "POST /ir HTTP/1.1" "GET /CSS/jquery/themes/base/jquery.ui.button.css HTTP/1.1" "GET /CSS/jquery/themes/base/images/ui-bg_glass_75_e6e6e6_1x400.png HTTP/1.1"
"GET /JavaScript/jquery/jquery-ui-1.8.5.custom.min.js HTTP/1.0"

从这个字段“GET /img/home/search-user-ico.jpg HTTP/1.1”,我只想要这部分/img/home/search-user-ico.jpg,我想把它从GET、POST和HTTP/1.1 所以请帮助我如何使用 wiki 中可用的字符串函数来拆分它。我尝试了 wiki 中可用的一些语法。但我现在很无助。

我试过这样的语法,

从日志文件限制 10 中选择 regexp_extract(request,'a-zA-Za-zA-Z[a-zA-Z]',2);

从日志文件限制 10 中选择 regexp_extract(request,'GET(\s)([a-zA-Z])',2);

从日志文件限制 10中选择 regexp_extract(request,'. ?(\s)(. ?)(\s)(.*?)',2);

从日志文件限制 10中选择 regexp_extract(request,'. (\s)(. )(\s)(.*)',2);

谢谢-乔

0 投票
1 回答
14666 浏览

hadoop - 对存储在 Hive 中的数据运行 Pig 查询

我想知道如何运行以 Hive 格式存储的 Pig 查询。我已将 Hive 配置为存储压缩数据(使用本教程http://wiki.apache.org/hadoop/Hive/CompressedStorage)。

在此之前,我曾经只是使用带有 Hive 分隔符 (^A) 的普通 Pig 加载功能。但是现在 Hive 将数据存储在经过压缩的序列文件中。使用哪个加载函数?

请注意,不需要像这里提到的那样紧密集成:Using Hive with Pig,只是使用什么加载函数来读取 Hive 生成​​的压缩序列文件。

感谢所有的答案。

0 投票
3 回答
90318 浏览

group-by - 蜂巢表达式不在分组中

我在 HIVE 中创建了一个表。它具有以下列:

我想每月获得平均(排名)。我可以使用这个命令。有用。

但是,我也想获取日期信息。我使用这个命令:

它抱怨:Expression Not In Group By Key

0 投票
3 回答
28361 浏览

hadoop - 将数据从 HDFS 导入 Hive 表

我在 HDFS 的 data/2011/01/13/0100/file 中有我的数据,每个文件都包含制表符分隔的数据,比如名称、ip、url。

我想在 Hive 中创建一个表并从 hdfs 导入数据,表应该包含时间、名称、ip 和 url。

如何使用 Hive 导入这些?r 数据应该是其他格式,以便我也可以导入时间?