“hive”的相关标签问题_Stack Overflow中文网

0 投票

7 回答

43982 浏览

hadoop - Hive 与 HBase 相比如何？

我有兴趣了解最近发布的 ( http://mirror.facebook.com/facebook/hive/hadoop-0.17/ ) Hive 在性能方面与 HBase 的比较。Hive 使用的类 SQL 接口比我们实现的 HBase API 更可取。

mrhahn

2008-08-23T12:22:04.993

0 投票

3 回答

2062 浏览

c# - C#.NET 导入注册表配置单元并解析其内容

我从注册表中获得了一个 .Hive 文件，我必须对其进行解析并将其内容用作 html 报告的一部分（由此我假设我必须以某种方式转换为文本）。整个事情必须在程序中完成，所以我不能只转换配置单元文件，然后通过我的程序运行它。我目前不知道如何开始这个，所以任何帮助都会很棒。

任何想法都会很棒！

c#text registry parsing hive

2008-11-24T11:59:50.677

0 投票

2 回答

8934 浏览

rdbms - 如何设计 Hbase 架构？

假设我有这个 RDBM 表（Entity-attribute-value_model）：

由于缩放问题，我想使用 HBase。

我知道访问 Hbase 表的唯一方法是使用主键（光标）。您可以获得特定键的游标，并逐个迭代行。

问题是，就我而言，我希望能够迭代所有 3 列。例如：

对于给定的 entityID，我想获取它的所有属性和值
对于给定的属性名称和值，我想要所有的 entitiIDS ...

所以我的一个想法是构建一个 Hbase 表来保存数据（表 DATA，以 entityID 作为主索引），以及 2 个“索引”表，一个以 attributeName 作为主键，另一个以 value

每个索引表都将保存 DATA 表的指针（实体 ID）列表。

这是一个合理的方法吗？或者是 Hbase 概念的“滥用”？

在这篇博客中，作者说：

HBase 允许通过主键获取操作并在行范围内扫描（想想：游标）。（如果你有二级索引的规模和需要，别担心 - Lucene 来拯救！但那是另一篇文章。）

您知道 Lucene 如何提供帮助吗？

——约纳坦

rdbms hadoop hbase hive

Yonatan Maman

2008-12-17T16:42:51.613

0 投票

5 回答

1447 浏览

jdbc - hadoop 蜂巢问题

我正在尝试使用 JDBC 务实地创建表。但是，我真的看不到我从 hive shell 创建的表。更糟糕的是，当我从不同的目录访问 hive shell 时，我看到了不同的数据库结果。我需要配置什么设置吗？

提前致谢。

jdbc hadoop hive

2009-07-17T05:37:24.557

0 投票

1 回答

3170 浏览

java - 不使用 CachedRowSetImpl.execute() 复制 ResultSet

我试图在执行查询后关闭连接。之前，我只是创建一个CachedRowSetImpl实例，它会为我释放资源。但是，我正在使用来自 Hadoop 项目的 Hive 数据库驱动程序。它不支持CachedRowSetImpl.execute()。我想知道是否有任何其他方法可以让我复制ResultSet对象并关闭连接？

java hadoop resultset hive cachedrowset

2009-07-20T01:11:04.080

0 投票

5 回答

8149 浏览

hadoop - OLAP 可以在 BigTable 中做吗？

过去，我曾经使用在 MySQL 上运行的 OLAP 多维数据集构建 WebAnalytics。现在，我使用的 OLAP 多维数据集只是一个大表（好吧，它的存储比那更智能），其中每一行基本上是一个测量值或一组测量值的聚合。每个度量都有一堆维度（即哪个页面名称、用户代理、ip 等）和一堆值（即有多少浏览量、多少访问者等）。

您在这样的表上运行的查询通常采用以下形式（元 SQL）：

因此，您可以使用提到的过滤器获得所选日期的每个小时的总数。一个障碍是这些立方体通常意味着全表扫描（各种原因），这意味着您可以制作这些东西的大小（以 MiB 为单位）的实际限制。

我目前正在学习 Hadoop 等的来龙去脉。

在 BigTable 上将上述查询作为 mapreduce 运行看起来很简单：只需将“小时”作为键，在映射中过滤并通过对值求和来减少。

您能否在 BigTable 类型的系统上“实时”（即通过用户界面并且用户尽快得到他们的答案）而不是批处理模式运行我上面显示的查询（或至少具有相同的输出）？

如果不; 在 BigTable/Hadoop/HBase/Hive 等领域做这样的事情的合适技术是什么？

hadoop olap mapreduce hbase hive

2009-09-14T21:59:29.360

0 投票

1 回答

1592 浏览

java - 构建 Apache Hive - 无法解决依赖关系

我正在按照http://wiki.apache.org/hadoop/Hive/GettingStarted试用 Apache Hive，并从 Ivy 收到此错误：

对于 4 个不同版本的 Hadoop，此错误重复 4 次，并且构建停止。

我有两个问题：

如何手动下载这些文件并将它们提供给构建？
为什么 Hive 需要下载 4 个不同版本的 Hadoop 来构建二进制文件？

java ant hadoop ivy hive

2009-11-10T01:06:16.417

0 投票

6 回答

4718 浏览

java - 如何在 Java 中对 Hive 进行异步调用？

我想以异步方式在服务器上执行 Hive 查询。Hive 查询可能需要很长时间才能完成，所以我不想阻止调用。我目前正在使用 Thirft 进行阻塞调用（client.execute() 上的阻塞），但我还没有看到如何进行非阻塞调用的示例。这是阻塞代码：

上面的代码缺少 try/catch 块以保持简短。

有谁知道如何进行异步调用？Hive/Thrift 可以支持吗？有没有更好的办法？

谢谢！

java asynchronous rpc thrift hive

2010-02-02T02:01:54.203

0 投票

3 回答

7567 浏览

hadoop - Hadoop Hive Web 界面选项

我一直在用 Hive 进行一些数据挖掘活动的试验，并希望让较少使用命令行的同事轻松使用它。

Hive 现在提供了一个 Web 界面 ( http://wiki.apache.org/hadoop/Hive/HiveWebInterface )，但在这个阶段它是非常基本的。

我的问题是 Hive 是否存在视觉上优美且功能齐全的界面（桌面或最好是基于 Web 的）？他们在 Hive 项目之外的任何开源工作都在这方面工作吗？

hadoop hive

2010-04-03T12:06:38.260

0 投票

3 回答

6092 浏览

hadoop - 使用 Hadoop，我的减速器是否可以保证使用相同的键获取所有记录？

我正在使用 Hive 运行 Hadoop 作业，实际上它应该uniq在许多文本文件中出现。在 reduce 步骤中，它为每个键选择最近的时间戳记录。

Hadoop 是否保证每个具有相同键的记录（由 map 步骤输出）都将转到单个 reducer，即使多个 reducer 在集群中运行？

我担心在具有相同键的一组记录中间发生随机播放后，映射器输出可能会被拆分。

hadoop mapreduce hive uniq

2010-04-13T21:16:17.853

问题标签 [hive]

Reference