“hbase”的相关标签问题_Stack Overflow中文网

0 投票

4 回答

12629 浏览

java - 具有 HDFS 输入和 HBASE 输出的 hadoop map reduce 作业

我是hadoop的新手。我有一个 MapReduce 作业，它应该从 Hdfs 获取输入并将 reducer 的输出写入 Hbase。我没有找到任何好的例子。

这是代码，运行此示例的错误是 Map 中的类型不匹配，预期 ImmutableBytesWritable 收到 IntWritable。

映射器类

减速机类

我只在 HDFS 上做过类似的工作并且工作正常。

2013 年 6 月 18 日编辑。两年前，学院项目顺利完成。对于作业配置（驱动程序部分），请检查正确答案。

2010-12-28T11:10:49.807

0 投票

1 回答

318 浏览

hbase - hbase：启动master时出错

启动 hbase master 时出现以下错误：

java.net.BindException：绑定到 /67.215.65.132:60000 的问题：无法分配请求的地址

有人知道hbase有什么问题吗？

hbase

2010-12-29T07:49:11.103

0 投票

1 回答

549 浏览

nosql - 从 HBASE 数据返回聚合

我有一个大约 150k 行的 HBASE 表，每行包含 3700 列。

我需要一次选择多行，并将结果汇总回来，例如：

行[1][列1] + 行[2][列1] ... + 行[n][
列1] 行[1][列2] + 行[2][列2] ... + 行[n][ column2]
...
row[1][columnn] + row[2][columnn] ... + row[n][columnn]

我可以使用扫描仪来做到这一点，我认为问题在于，扫描仪就像一个光标，并且不会同时在多台机器上进行分配工作，而是从一个区域获取数据，然后跳到另一个区域region 以获取下一组数据，依此类推，我的结果跨越多个区域。

有没有办法以分布式方式扫描（一个选项，或者为每个区域的数据价值创建多个扫描仪[这本身可能是一罐蠕虫]）还是必须在 map/reduce 工作中完成. 如果它是一个 M/R 工作，它对于实时查询是否足够“快”？如果没有，是否有一些很好的替代方法可以使用 NOSQL 类型的数据库实时进行这些类型的聚合？

nosql hadoop hbase

2010-12-29T16:36:03.033

0 投票

1 回答

1320 浏览

python - 在 CDH3 上编写 HBase MapReduce 的最简单的非 Java 方法？

我在这方面工作了很长时间，感觉很累；我希望来自 SO 社区的 [明显？] 见解可能会让我的宠物项目重新开始，这样我就可以停止踢自己了。我正在使用 Cloudera CDH3、HBase .89 和 Hadoop .20。

我有一个 Python/Django 应用程序，它使用 Thrift 接口将数据写入单个 HBase 表，效果很好。现在我想将它映射/减少到更多的 HBase 表中。

这里明显的答案是 Dumbo 或 Apache PIG，但是对于 Pig，HBaseStorage 适配器支持不适用于我的版本（Pig 能够加载类和定义，但在“映射”步骤冻结，抱怨“输入拆分”；Pig 邮件列表表明这是在 Pig 0.8 中修复的，它与 CDH3 Hadoop 不兼容，所以我必须使用所有东西的边缘版本 [我认为]）。我找不到任何关于如何让 Dumbo 使用 HBaseStorage 作为数据接收器的信息。

我不在乎它是 Python、Ruby、Scala、Clojure、Jython、JRuby 还是 PHP，我只是真的不想写 Java（有很多原因，其中大部分都涉及到我每次遇到的下沉感觉必须将 Int() 转换为 IntWritable() 等）。

我已经尝试了所有我能找到的最后一个解决方案和示例（过去 4 周），用于用替代语言编写 HBase Map/Reduce 作业，但一切似乎都过时或不完整。请 Stack Overflow 把我从我自己的设备中拯救出来！

python hadoop mapreduce hbase

2010-12-29T19:12:52.233

0 投票

2 回答

768 浏览

database - 关于没有 sql 数据库（如 hadoop、hbase 等）的帮助

我是分布式 NoSQL 数据库（如 Hadoop、Cassandra 等）的新手。我有几个问题需要寻求专家建议：

您能否列出从目前的传统数据库（如 MySQL）转变为这些基于集群的大型数据库时通常会面临的问题/挑战？
当需要适应这些开源项目的更新版本时，有哪些困难（如果有的话）？
您能否列出通常存储/保存在 memcached 中以快速呈现页面的内容？
我如何才能理解开源项目的源代码，以便我可以在它的基础上进行构建并回馈社区？

以上问题可能听起来很愚蠢和基本，但请专家们尽其所能详细回答上述问题。

database memcached nosql hadoop hbase

2011-01-02T16:34:31.963

0 投票

1 回答

1826 浏览

hadoop - 在 HBase 中存储对象和它们之间的关系

我正在开始一个个人项目，该项目涉及存储大型对象数据库和对象之间的关系。我选择了 Hadoop 和 HBase，因为它需要是多节点的，而且大部分数据都是稀疏的。

来自 RDBMS 世界，我花了很多时间阅读 HBase 的面向列的结构，并且鉴于当前的文档，我无法弄清楚如何存储对象和对象之间的关系。

对象本身可以与其他对象有无限数量的关系，以及无限数量的任意属性。关系也可以具有属性。我的目标是有两个由“已婚”关系链接的“人”对象，并且已婚关系有一个属性“日期”，我希望（将来）能够编写一个 MapReduce 来快速找到所有在 x 和 y 之间结婚的人。

hadoop hbase

2011-01-03T07:45:04.760

0 投票

2 回答

3412 浏览

java - Hbase和Hive集成有什么好处

最近，我看到一个博客，作者提到了 Hbase 和 Hive 的集成。这是否可能，如果可以，使用两者有什么优势（在性能和可扩展性方面）。如果我错了，请纠正我。

java hbase hive hdfs

2011-01-06T17:31:08.793

0 投票

3 回答

18939 浏览

hadoop - 在 HBase 中删除多行的有效方法

有没有一种有效的方法来删除 HBase 中的多行，或者我的用例闻起来不适合 HBase？

有一个表说“图表”，其中包含图表中的项目。行键采用以下格式： chart|date_reversed|ranked_attribute_value_reversed|content_id

有时我想为给定日期重新生成图表，所以我想删除从“chart|date_reversed_1”到“chart|date_reversed_2”的所有行。有没有比为扫描找到的每一行发出删除更好的方法？所有要删除的行都将彼此靠近。

我需要删除这些行，因为我不希望一个项目（一个 content_id）有多个条目，如果它的ranked_attribute_value 已更改（它的更改是需要重新生成图表的原因）。

作为一个 HBase 初学者，所以我可能会误用行来代替列更好的东西——如果你有设计建议，很酷！或者，也许图表最好在文件中生成（例如，没有用于输出的 HBase）？我正在使用 MapReduce。

hadoop mapreduce hbase

2011-01-06T19:33:34.543

0 投票

1 回答

2655 浏览

hadoop - Hbase 0.20.6 无法启动 master 异常

我在Ubuntu 10.04 LTS上使用Hbase 0.20.6和Hadoop 0.21.0 ，但出现无法启动主错误。（错误附在 hbase-root-master-ubuntu.log 文件的帖子末尾）

Hbase 0.20.6 可以与 Hadoop 0.21.0 一起正常工作吗？如果不是，是否有解决方法？

问题根源是什么？？

感谢您的时间和考虑。

日志：

hadoop hbase ioexception master eofexception

2011-01-06T20:10:01.590

0 投票

3 回答

1725 浏览

jruby - HBase 通过 JRuby 建议？

HBase shell现在基于 jirb，它是交互式 ruby shell irb 的 JRuby 实现。除了通过这个 shell 之外，在 JRuby 中以编程方式与 HBase 交互有什么好的技巧吗？

Hadoop wiki 上的示例似乎只是对 Java API 的直接调用；我还能做些什么吗？

jruby hbase

2011-01-08T21:54:28.447

问题标签 [hbase]

Reference