问题标签 [hive]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hive 与 HBase 相比如何?
我有兴趣了解最近发布的 ( http://mirror.facebook.com/facebook/hive/hadoop-0.17/ ) Hive 在性能方面与 HBase 的比较。Hive 使用的类 SQL 接口比我们实现的 HBase API 更可取。
c# - C#.NET 导入注册表配置单元并解析其内容
我从注册表中获得了一个 .Hive 文件,我必须对其进行解析并将其内容用作 html 报告的一部分(由此我假设我必须以某种方式转换为文本)。整个事情必须在程序中完成,所以我不能只转换配置单元文件,然后通过我的程序运行它。我目前不知道如何开始这个,所以任何帮助都会很棒。
任何想法都会很棒!
rdbms - 如何设计 Hbase 架构?
假设我有这个 RDBM 表(Entity-attribute-value_model):
由于缩放问题,我想使用 HBase。
我知道访问 Hbase 表的唯一方法是使用主键(光标)。您可以获得特定键的游标,并逐个迭代行。
问题是,就我而言,我希望能够迭代所有 3 列。例如 :
- 对于给定的 entityID,我想获取它的所有属性和值
- 对于给定的属性名称和值,我想要所有的 entitiIDS ...
所以我的一个想法是构建一个 Hbase 表来保存数据(表 DATA,以 entityID 作为主索引),以及 2 个“索引”表,一个以 attributeName 作为主键,另一个以 value
每个索引表都将保存 DATA 表的指针(实体 ID)列表。
这是一个合理的方法吗?或者是 Hbase 概念的“滥用”?
HBase 允许通过主键获取操作并在行范围内扫描(想想:游标)。(如果你有二级索引的规模和需要,别担心 - Lucene 来拯救!但那是另一篇文章。)
您知道 Lucene 如何提供帮助吗?
——约纳坦
jdbc - hadoop 蜂巢问题
我正在尝试使用 JDBC 务实地创建表。但是,我真的看不到我从 hive shell 创建的表。更糟糕的是,当我从不同的目录访问 hive shell 时,我看到了不同的数据库结果。我需要配置什么设置吗?
提前致谢。
java - 不使用 CachedRowSetImpl.execute() 复制 ResultSet
我试图在执行查询后关闭连接。之前,我只是创建一个CachedRowSetImpl
实例,它会为我释放资源。但是,我正在使用来自 Hadoop 项目的 Hive 数据库驱动程序。它不支持CachedRowSetImpl.execute()
。我想知道是否有任何其他方法可以让我复制ResultSet
对象并关闭连接?
hadoop - OLAP 可以在 BigTable 中做吗?
过去,我曾经使用在 MySQL 上运行的 OLAP 多维数据集构建 WebAnalytics。现在,我使用的 OLAP 多维数据集只是一个大表(好吧,它的存储比那更智能),其中每一行基本上是一个测量值或一组测量值的聚合。每个度量都有一堆维度(即哪个页面名称、用户代理、ip 等)和一堆值(即有多少浏览量、多少访问者等)。
您在这样的表上运行的查询通常采用以下形式(元 SQL):
因此,您可以使用提到的过滤器获得所选日期的每个小时的总数。一个障碍是这些立方体通常意味着全表扫描(各种原因),这意味着您可以制作这些东西的大小(以 MiB 为单位)的实际限制。
我目前正在学习 Hadoop 等的来龙去脉。
在 BigTable 上将上述查询作为 mapreduce 运行看起来很简单:只需将“小时”作为键,在映射中过滤并通过对值求和来减少。
您能否在 BigTable 类型的系统上“实时”(即通过用户界面并且用户尽快得到他们的答案)而不是批处理模式运行我上面显示的查询(或至少具有相同的输出)?
如果不; 在 BigTable/Hadoop/HBase/Hive 等领域做这样的事情的合适技术是什么?
java - 构建 Apache Hive - 无法解决依赖关系
我正在按照http://wiki.apache.org/hadoop/Hive/GettingStarted试用 Apache Hive,并从 Ivy 收到此错误:
对于 4 个不同版本的 Hadoop,此错误重复 4 次,并且构建停止。
我有两个问题:
- 如何手动下载这些文件并将它们提供给构建?
- 为什么 Hive 需要下载 4 个不同版本的 Hadoop 来构建二进制文件?
java - 如何在 Java 中对 Hive 进行异步调用?
我想以异步方式在服务器上执行 Hive 查询。Hive 查询可能需要很长时间才能完成,所以我不想阻止调用。我目前正在使用 Thirft 进行阻塞调用(client.execute() 上的阻塞),但我还没有看到如何进行非阻塞调用的示例。这是阻塞代码:
上面的代码缺少 try/catch 块以保持简短。
有谁知道如何进行异步调用?Hive/Thrift 可以支持吗?有没有更好的办法?
谢谢!
hadoop - Hadoop Hive Web 界面选项
我一直在用 Hive 进行一些数据挖掘活动的试验,并希望让较少使用命令行的同事轻松使用它。
Hive 现在提供了一个 Web 界面 ( http://wiki.apache.org/hadoop/Hive/HiveWebInterface ),但在这个阶段它是非常基本的。
我的问题是 Hive 是否存在视觉上优美且功能齐全的界面(桌面或最好是基于 Web 的)?他们在 Hive 项目之外的任何开源工作都在这方面工作吗?
hadoop - 使用 Hadoop,我的减速器是否可以保证使用相同的键获取所有记录?
我正在使用 Hive 运行 Hadoop 作业,实际上它应该uniq
在许多文本文件中出现。在 reduce 步骤中,它为每个键选择最近的时间戳记录。
Hadoop 是否保证每个具有相同键的记录(由 map 步骤输出)都将转到单个 reducer,即使多个 reducer 在集群中运行?
我担心在具有相同键的一组记录中间发生随机播放后,映射器输出可能会被拆分。