问题标签 [hive]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 在 Hive 中,“加载数据本地路径”是否覆盖现有数据或追加?
我希望在 cron 上运行导入 Hive,并希望只使用
“将数据本地路径'/tmp/data/x'加载到表X中”到表中就足够了。
后续命令会覆盖表中已有的内容吗?还是会追加?
hadoop - 对大型动态数据集进行分析查询
我有一个要求,我有大量传入数据到我拥有的系统中。
该集合中的单个数据单元具有一组附加的不可变属性 + 状态。状态是动态的,可以随时更改。
要求如下——
- 大型数据集可能会经历状态变化。更新需要快速。
- 我应该能够聚合以各种属性为中心的数据。
- 理想情况下 - 应该有一种方法可以将单个数据单元与聚合结果相关联,即我想深入研究产生某种聚合的特定事务。(我知道这里的竞争条件,例如在执行聚合后数据单元的状态发生变化;但这是意料之中的)。
- 所有聚合都是基于时间的 - 即在一天、2 天、一周、一个月等中枢轴 y 上的 x 总和。
我正在评估不同的技术来满足这些用例,并想听听您的建议。我查看了适合分析/聚合用例的 Hive/Pig。但是,我担心随时可能进入系统的大量更新。与索引数据库(sql 或 nosql)相比,我不确定这在 HDFS 文件上的表现如何。
syntax - 是否存在相当于 SQL“不喜欢”的 Hive
虽然 Hive 支持积极的类似查询:例如。
select * from table_name where column_name like 'root~%' ;
Hive不支持否定查询:例如。
select * from table_name where column_name not like 'root~%' ;
有谁知道 Hive 支持的等效解决方案?
hadoop - 有什么好的开源分析前端工具吗?
是否有任何好的开源基于 Web 的前端分析工具可以与 HIVE/HDFS 进行数据通信?
syntax - Hive:将列标题写入本地文件?
再次缺少 Hive 文档:
我想将查询结果以及列名写入本地文件。
Hive 支持这个吗?
另外,单独的问题:StackOverflow 是获得 Hive 帮助的最佳场所吗?@Nija,非常有帮助,但我不会一直打扰他们......
hadoop - 使用 Apache Hive 作为 MapReduce 输入格式和/或抓取 Hive 元数据
我们的环境非常重视在 hive 中存储数据。我发现自己目前正在做一些超出范围的事情。我编写了一个 mapreduce,但它需要大量直接用户输入来获取可以轻松从 Hive 中抓取的信息。也就是说,当我查询 hive 以获取扩展表数据时,所有扩展信息都被丢弃在 1 或 2 列中,作为几乎 JSON 的巨大 blob。是否有一种方便的方法来解析这些信息,或者更好的是,直接在更直接的庄园中获取它?
或者,如果我可以得到有关手动使用 CombinedHiveInputFormat 的文档,那将大大简化我的代码。但似乎 InputFormat 仅在 Hive 内部使用,使用它的自定义结构。
最终,我想要知道映射器正在处理的拆分的表名、列(不包括分区)和分区位置。如果还有另一种方法可以做到这一点,我很想知道。
hive - Hadoop Hive - 拆分字符串
我是一个新的蜂巢。
我的查询:在日志文件中,我们有一个像这样的请求字段“GET /img/home/search-user-ico.jpg HTTP/1.1”。有超过 10,000 条记录可用。
例子 :
"GET /img/home/search-user-ico.jpg HTTP/1.1"
"GET /JavaScript/jquery-1.4.2.min.js HTTP/1.1" "GET /ems/home HTTP/1.1" "POST /ir HTTP/1.1" "GET /CSS/jquery/themes/base/jquery.ui.button.css HTTP/1.1" "GET /CSS/jquery/themes/base/images/ui-bg_glass_75_e6e6e6_1x400.png HTTP/1.1"
"GET /JavaScript/jquery/jquery-ui-1.8.5.custom.min.js HTTP/1.0"
从这个字段“GET /img/home/search-user-ico.jpg HTTP/1.1”,我只想要这部分/img/home/search-user-ico.jpg,我想把它从GET、POST和HTTP/1.1 所以请帮助我如何使用 wiki 中可用的字符串函数来拆分它。我尝试了 wiki 中可用的一些语法。但我现在很无助。
我试过这样的语法,
从日志文件限制 10 中选择 regexp_extract(request,'a-zA-Za-zA-Z[a-zA-Z]',2);
从日志文件限制 10 中选择 regexp_extract(request,'GET(\s)([a-zA-Z])',2);
从日志文件限制 10中选择 regexp_extract(request,'. ?(\s)(. ?)(\s)(.*?)',2);
从日志文件限制 10中选择 regexp_extract(request,'. (\s)(. )(\s)(.*)',2);
谢谢-乔
hadoop - 对存储在 Hive 中的数据运行 Pig 查询
我想知道如何运行以 Hive 格式存储的 Pig 查询。我已将 Hive 配置为存储压缩数据(使用本教程http://wiki.apache.org/hadoop/Hive/CompressedStorage)。
在此之前,我曾经只是使用带有 Hive 分隔符 (^A) 的普通 Pig 加载功能。但是现在 Hive 将数据存储在经过压缩的序列文件中。使用哪个加载函数?
请注意,不需要像这里提到的那样紧密集成:Using Hive with Pig,只是使用什么加载函数来读取 Hive 生成的压缩序列文件。
感谢所有的答案。
group-by - 蜂巢表达式不在分组中
我在 HIVE 中创建了一个表。它具有以下列:
我想每月获得平均(排名)。我可以使用这个命令。有用。
但是,我也想获取日期信息。我使用这个命令:
它抱怨:Expression Not In Group By Key
hadoop - 将数据从 HDFS 导入 Hive 表
我在 HDFS 的 data/2011/01/13/0100/file 中有我的数据,每个文件都包含制表符分隔的数据,比如名称、ip、url。
我想在 Hive 中创建一个表并从 hdfs 导入数据,表应该包含时间、名称、ip 和 url。
如何使用 Hive 导入这些?r 数据应该是其他格式,以便我也可以导入时间?