问题标签 [hbase]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
12629 浏览

java - 具有 HDFS 输入和 HBASE 输出的 hadoop map reduce 作业

我是hadoop的新手。我有一个 MapReduce 作业,它应该从 Hdfs 获取输入并将 reducer 的输出写入 Hbase。我没有找到任何好的例子。

这是代码,运行此示例的错误是 Map 中的类型不匹配,预期 ImmutableBytesWritable 收到 IntWritable。

映射器类

减速机类

我只在 HDFS 上做过类似的工作并且工作正常。

2013 年 6 月 18 日编辑。两年前,学院项目顺利完成。对于作业配置(驱动程序部分),请检查正确答案。

0 投票
1 回答
318 浏览

hbase - hbase:启动master时出错

启动 hbase master 时出现以下错误:

java.net.BindException:绑定到 /67.215.65.132:60000 的问题:无法分配请求的地址

有人知道hbase有什么问题吗?

0 投票
1 回答
549 浏览

nosql - 从 HBASE 数据返回聚合

我有一个大约 150k 行的 HBASE 表,每行包含 3700 列。

我需要一次选择多行,并将结果汇​​总回来,例如:

行[1][列1] + 行[2][列1] ... + 行[n][
列1] 行[1][列2] + 行[2][列2] ... + 行[n][ column2]
...
row[1][columnn] + row[2][columnn] ... + row[n][columnn]

我可以使用扫描仪来做到这一点,我认为问题在于,扫描仪就像一个光标,并且不会同时在多台机器上进行分配工作,而是从一个区域获取数据,然后跳到另一个区域region 以获取下一组数据,依此类推,我的结果跨越多个区域。

有没有办法以分布式方式扫描(一个选项,或者为每个区域的数据价值创建多个扫描仪[这本身可能是一罐蠕虫])还是必须在 map/reduce 工作中完成. 如果它是一个 M/R 工作,它对于实时查询是否足够“快”?如果没有,是否有一些很好的替代方法可以使用 NOSQL 类型的数据库实时进行这些类型的聚合?

0 投票
1 回答
1320 浏览

python - 在 CDH3 上编写 HBase MapReduce 的最简单的非 Java 方法?

我在这方面工作了很长时间,感觉很累;我希望来自 SO 社区的 [明显?] 见解可能会让我的宠物项目重新开始,这样我就可以停止踢自己了。我正在使用 Cloudera CDH3、HBase .89 和 Hadoop .20。

我有一个 Python/Django 应用程序,它使用 Thrift 接口将数据写入单个 HBase 表,效果很好。现在我想将它映射/减少到更多的 HBase 表中。

这里明显的答案是 Dumbo 或 Apache PIG,但是对于 Pig,HBaseStorage 适配器支持不适用于我的版本(Pig 能够加载类和定义,但在“映射”步骤冻结,抱怨“输入拆分”;Pig 邮件列表表明这是在 Pig 0.8 中修复的,它与 CDH3 Hadoop 不兼容,所以我必须使用所有东西的边缘版本 [我认为])。我找不到任何关于如何让 Dumbo 使用 HBaseStorage 作为数据接收器的信息。

我不在乎它是 Python、Ruby、Scala、Clojure、Jython、JRuby 还是 PHP,我只是真的不想写 Java(有很多原因,其中大部分都涉及到我每次遇到的下沉感觉必须将 Int() 转换为 IntWritable() 等)。

我已经尝试了所有我能找到的最后一个解决方案和示例(过去 4 周),用于用替代语言编写 HBase Map/Reduce 作业,但一切似乎都过时或不完整。请 Stack Overflow 把我从我自己的设备中拯救出来!

0 投票
2 回答
768 浏览

database - 关于没有 sql 数据库(如 hadoop、hbase 等)的帮助

我是分布式 NoSQL 数据库(如 Hadoop、Cassandra 等)的新手。我有几个问题需要寻求专家建议:

  1. 您能否列出从目前的传统数据库(如 MySQL)转变为这些基于集群的大型数据库时通常会面临的问题/挑战?
  2. 当需要适应这些开源项目的更新版本时,有哪些困难(如果有的话)?
  3. 您能否列出通常存储/保存在 memcached 中以快速呈现页面的内容?
  4. 我如何才能理解开源项目的源代码,以便我可以在它的基础上进行构建并回馈社区?

以上问题可能听起来很愚蠢和基本,但请专家们尽其所能详细回答上述问题。

0 投票
1 回答
1826 浏览

hadoop - 在 HBase 中存储对象和它们之间的关系

我正在开始一个个人项目,该项目涉及存储大型对象数据库和对象之间的关系。我选择了 Hadoop 和 HBase,因为它需要是多节点的,而且大部分数据都是稀疏的。

来自 RDBMS 世界,我花了很多时间阅读 HBase 的面向列的结构,并且鉴于当前的文档,我无法弄清楚如何存储对象和对象之间的关系。

对象本身可以与其他对象有无限数量的关系,以及无限数量的任意属性。关系也可以具有属性。我的目标是有两个由“已婚”关系链接的“人”对象,并且已婚关系有一个属性“日期”,我希望(将来)能够编写一个 MapReduce 来快速找到所有在 x 和 y 之间结婚的人。

0 投票
2 回答
3412 浏览

java - Hbase和Hive集成有什么好处

最近,我看到一个博客,作者提到了 Hbase 和 Hive 的集成。这是否可能,如果可以,使用两者有什么优势(在性能和可扩展性方面)。如果我错了,请纠正我。

0 投票
3 回答
18939 浏览

hadoop - 在 HBase 中删除多行的有效方法

有没有一种有效的方法来删除 HBase 中的多行,或者我的用例闻起来不适合 HBase?

有一个表说“图表”,其中包含图表中的项目。行键采用以下格式: chart|date_reversed|ranked_attribute_value_reversed|content_id

有时我想为给定日期重新生成图表,所以我想删除从“chart|date_reversed_1”到“chart|date_reversed_2”的所有行。有没有比为扫描找到的每一行发出删除更好的方法?所有要删除的行都将彼此靠近。

我需要删除这些行,因为我不希望一个项目(一个 content_id)有多个条目,如果它的ranked_attribute_value 已更改(它的更改是需要重新生成图表的原因)。

作为一个 HBase 初学者,所以我可能会误用行来代替列更好的东西——如果你有设计建议,很酷!或者,也许图表最好在文件中生成(例如,没有用于输出的 HBase)?我正在使用 MapReduce。

0 投票
1 回答
2655 浏览

hadoop - Hbase 0.20.6 无法启动 master 异常

我在Ubuntu 10.04 LTS上使用Hbase 0.20.6Hadoop 0.21.0 ,但出现无法启动主错误。(错误附在 hbase-root-master-ubuntu.log 文件的帖子末尾)

Hbase 0.20.6 可以与 Hadoop 0.21.0 一起正常工作吗?如果不是,是否有解决方法?

问题根源是什么??

感谢您的时间和考虑。

日志:

0 投票
3 回答
1725 浏览

jruby - HBase 通过 JRuby 建议?

HBase shell现在基于 jirb,它是交互式 ruby​​ shell irb 的 JRuby 实现。除了通过这个 shell 之外,在 JRuby 中以编程方式与 HBase 交互有什么好的技巧吗?

Hadoop wiki 上的示例似乎只是对 Java API 的直接调用;我还能做些什么吗?