问题标签 [gora]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
6790 浏览

hadoop - HBase master 未运行异常

我收到以下错误。我正在尝试将 HBase 连接为 Nutch 爬虫的后端。

请帮我。

0 投票
1 回答
291 浏览

storage - 是否可以使用带有普通文件系统的 Nutch 2.x 和 Apache Gora 作为后端存储

是否可以使用带有普通文件系统的 Nutch 2.x 和 Apache Gora™ 作为后端存储?

官网说:

Nutch 2.x:一种从 1.x 直接汲取灵感的新兴替代品,但在一个关键领域有所不同;通过使用 Apache Gora™ 处理对象到持久性的映射,存储从任何特定的底层数据存储中抽象出来。

我想使用最新版本的 nutch(目前为 2.1),但我现在不想使用 nosql 或 rdbms 后端来设置复杂的后端进行存储。我想稍后选择后端存储。

我没有找到任何将文件系统用作 Gora 存储的文档。可能吗?

0 投票
1 回答
386 浏览

avro - Array/HashMap 的 Accumulo Gora 映射

我能够使用 Avro JSON 规范(捆绑在 Gora 中)将 Apache Gora 作为 ORM 与 Accumulo 集成。当我使用原始数据类型(如 String、Integer 等)时,它工作得很好,但是一旦我将数据类型定义为 Array 或 Map,我就会遇到错误。

对于 Array ,当我尝试添加新元素时,Gora 会引发以下错误:

“org.apache.gora.persistency.ListGenericArray.add(Ljava/lang/Object;)Z”

使用 Map ,虽然我没有收到错误,但在提交后我只看到一个空的 JSON 对象 '{}' ...缺少键/值对。

这就是我的 JSON 规范的样子

这是 Accumulo-Gora xml 映射

我正在使用 Accumulo 1.5 版和 Gora 0.3 版。我也尝试使用 Accumulo 版本 1.4.4,但面临同样的问题。

我不确定 Gora 是否支持 Map 或 Array 数据类型;我想它应该将复杂的数据类型转换为等效的 JSON 格式,并将其作为 Char 序列存储在 Accumulo 中。

有任何想法吗 ?

0 投票
2 回答
636 浏览

gora - Apache Gora vs mysql 应用程序和 sqoop

我想将 mysql 与 hadoop 中的项目集成。我搜索了很多不同的方法,有两种方法:实时使用“mysql applier for hadoop”和“apache sqoop”用于非实时使用。
我发现 Gora 也有这种能力,但我找不到任何关于如何做到这一点的信息。
Gora 是实时的还是非实时的?gora和mysql applier或sqoop有什么区别?
对于hadoop和mysql的集成,是否需要任何nosql db作为接口?

0 投票
1 回答
330 浏览

java - 使用 apache nutch 2.2.1

我正在尝试开始我的第一次爬网,我已经配置了数据库设置并执行以下命令: bin/nutch inject urls

错误结果如下:

有人能帮我吗?

0 投票
0 回答
139 浏览

hbase - 如何使用 nutch 的解析器作业获取特定页面上引用的所有外链

我正在使用 nutch2.2 和 hbase 0.94 和 gora 0.4,当我执行如下步骤时

我会得到特定页面的 html 内容说([ http://www.flipkart.com/mens-clothing/t-shirts?otracker=hp_nmenu_sub_men_0_T-Shirts])但是当我执行第 4 步时

并看到我webpage在 hbase 中创建的表有一个ol(outlink)列族,但它是空的

如果有人可以提供帮助,如果我得到所有的外链,那对我有好处。

提前致谢

0 投票
1 回答
923 浏览

hbase - 无法在 Hadoop2 上运行 Nutch2(Nutch 2.x + Hadoop 2.4.0 + HBase 0.94.18 + Gora 0.5 + Avro 1.7.6)

我需要在上述配置(主题)中为 EMR 安装 Nutch 2.3。

在本地计算机上完成:

  1. Nutch 2.x

1.1 svn 当前 2.x 版本

1.2. 准备好的脚本:

1.2.1 常春藤:

1.2.2 default.properties:

1.3. 添加

到 ProtocolStatus.java、ParseStatus.java、Host.java、WebPage.java。

  1. HBase

2.1 svn HBase 0.94.18

2.2 为 Protobuf 2.5.0 准备,也感谢 Dobromyslov [ https://github.com/dobromyslov ]

2.3还生成了hbase-0.94.18-hadoop-2.4.0.jar

  1. Gora 0.5(也从 com.argonio.gora 测试了 0.4、0.6-SNAPSHOT 和 0.5.3 版本)

  2. Avro 1.7.6(也可以使用 1.7.4、1.7.7 版本)

4.1 svn

为 AVRO-813 修补的 4.2

4.3 为 AVRO-882 打补丁并回滚

4.4 修补如 [1] - 评论抛出 EOFException 反对

等等

在无数次例外之后,Nutch 2.x 和 Avro 1.7.6 中进行了一些更改。

Nutch 看起来有点跑,但不稳定且不正确。

循环(注入、生成、获取、解析、更新b)已通过,但某些功能被破坏和忽略。

看来我打破了 Nutch 和 HBase 之间的正常数据交换(也与 gora 和 avro)。某些字段(和/或某些数据格式)读取和写入不正确。Fe 许多标记丢失(在代码中临时模拟);batchId 字段中的数据丢失;得分也破。

请帮忙!我已准备好发布我所有的差异和异常跟踪。

[1] http://mail-archives.apache.org/mod_mbox/nutch-user/201409.mbox/%3cCAEmTxX9HrRM00SxerFAdRdZy=wVAd9xCchDTuLaxPQ=wi0QEsw@mail.gmail.com%3e

0 投票
0 回答
204 浏览

hadoop - 无法使用 gora0.5 和 mongodb 作为后端数据存储在 hadoop2.4.0 上运行 nutch2.3-snapshot

我遇到这个问题好几天了。当我使用hadoop1.2时,它工作正常。当我转向 hadoop2.x(hadoop2.4 或 hadoop2.5.2)时,我遇到了这个问题:

我发现我在使用hadoop2.x的时候ivy.xml,会hadoop-core-1.0.1.jar自动产生一个,好像是受gora的依赖影响。排除hadoop-core-*后,就会出现这个问题!我还手动更新了 jar 文件avro-mapre-1.7.6.jaravro-mapred-1.7.6-hadoop2.jar不幸的是没有任何变化!任何想法将不胜感激,谢谢!

0 投票
1 回答
3578 浏览

java - Eclipse Maven 构建编译器失败 - 没有堆栈跟踪

我正在尝试构建 Apache Gora,您可以在此处找到它,我已将其作为模块化 apache maven 项目下载。当我尝试使用execute maven来自 eclipse 的install目标构建 gora 时,出现以下错误:

它还告诉我以下内容:

但是,如果我在下次运行时重新运行没有工作区的安装,clean它会正确构建编译器模块。如果我再次重新运行以下模块会成功,依此类推。我无法对这里发生的事情做出正面或反面。

0 投票
3 回答
786 浏览

java - Nutch + HBase:hbase 版本问题和 java 异常

我正在尝试在 Debian Squeeze 上使用 HBase 0.94.14 设置 Nutch 2.2.1。我仔细阅读了 Nutch 1 和 2 教程以及各种文档。我可以构建 HBase 0.94.14,并最终让它工作(我可以创建表等)我可以毫无问题地构建 Nutch(它设置在 Gora 0.3 上)

现在的问题是:1-尝试启动 Nutch 时,我得到以下跟踪:

等等

使用 strace -f,我发现找不到“HBaseStore.class”:

我试图弄清楚类路径是否存在问题,但最终发现: - HBaseStore.class 既不在 Nutch 目录树中,也不在 Hbase 0.94.4 目录树中 - Nutch 树中的 HBase jar 版本令人惊讶:hbase-0.90.4.jar

根据我发现的一些在线讨论,我将 nutch 树中的 hbase-0.90.4.jar 替换为 hbase 树中的 hbase-0.94.4 ...

但是: - 它不能解决 java 问题 - 每次我重建 nutch 时,hbase-0.90.4.jar 又回来了,我在 nutch 树中找不到它的任何来源:-/

请注意,/root/nutch/apache-nutch-2.2.1/conf/hbase-site.xml 具有:

对应于 Nutch 0.94.4 ...

还尝试重建和使用 Gora 0.5,但它使 Nutch 构建失败。

我根本不是 Java 专家,我不明白为什么 Nutch 没有使用正确版本的 HBase,为什么似乎缺少源代码和 java 类,此时我完全陷入困境。真是一团糟。

感谢您提供任何有助于挽救这种情况的提示。