问题标签 [gora]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2119 浏览

nutch - nutch 生成期间的运行时异常

我正在尝试第一次运行 nutch 并在执行时

/bin/nutch 生成 -topN 5

我得到以下异常:

这是 hadoop.log 的堆栈跟踪:

我一直在关注这里的教程:https ://github.com/renepickhardt/metalcon/wiki/simpleNutchSolrSetup用于设置 nutch。

我看过一些关于 stackoverflow 和 nutch 档案的帖子,但有类似的例外,他们建议我的 /tmp 目录中的磁盘空间可能用完了,但 /tmp 目录上只有大约 8MB 的数据. 除此之外,我对导致此异常的原因一无所知

此异常的原因可能是什么?

我使用 Nutch 2.3.1 和 HBase 1.1.3 作为数据存储,我在 Ubuntu 15.10 上运行它

谢谢

0 投票
1 回答
57 浏览

java - Apache Groa 找不到主类错误

当我尝试使用 运行 apache gora 编译器时,出现以下错误 ./gora goracompiler

Error: Could not find or load main class org.apache.gora.compiler.cli.GoraCompilerCLI

在此之前我得到 JAVA_HOME not set 错误之后我通过设置 JAVA_HOME 变量解决了该错误

OS: Cent OS 6.5 Java version : java version "1.7.0_45" OpenJDK Runtime Environment (rhel-2.4.3.3.el6-x86_64 u45-b15) OpenJDK 64-Bit Server VM (build 24.45-b08, mixed mode)

0 投票
0 回答
439 浏览

solr - Nutch2.3.1 在注入、解析获取、生成时挂起

我已经阅读了各种 SO 线程,了解为什么在生成/注入/解析/获取时需要这么长时间(或挂起),但没有运气。我尝试实施的以下 SO 线程中的解决方案,但没有运气。

1) Nutch 2.1 urls 注入需要永远

2) Nutch 2.2.1 在喷油器工作后不继续

和其他各种线程。

我正在使用 Nutch2.3.1 和 HBase0.94.27。我一直在关注这个这个教程,我能够成功构建。但是当我发出任何 nutch 命令时,它就会挂断。

以下是我在触发这些命令时得到的日志:-

注入命令

生成命令

获取命令

解析命令

更新命令

以下是 HBase 日志:-

Hadoop.log

究竟是什么问题。我已经正确配置了所有内容,但它仍然挂断。为什么

0 投票
0 回答
435 浏览

macos - OSX 上的 Nutch 2.3.1 无法连接到 MongoDB

我在 Eclipse 中运行的 MacOS 10.11.5 (El Capitan) 上配置了一个本地 Nutch 2.3.1 实例,如下所述:https ://wiki.apache.org/nutch/RunNutchInEclipse

作为要使用的数据存储,我配置了 MongoDB 2.6.12,它也在我的本地 MacOS 机器上运行。我从这里获取了 Gora 配置:http ://www.aossama.com/search-engine-with-apache-nutch-mongodb-and-elasticsearch/

常春藤.xml

gora.properties

我没有更改gora-mongodb-mapping.xml

nutch-site.xml

如果我运行注入命令,hadoop.log 会显示这个令人困惑的结果:

两天后,我的想法已经用完了。

在日志文件中,我无法识别任何有价值的提示。MongoDB 日志不显示任何连接尝试(更不用说活动连接)。使用mongo我能够连接到数据库并请求http://localhost:27017会显示预期的消息(“看起来您正试图在本机驱动程序端口上通过 HTTP 访问 MongoDB。”)和相应的日志文件条目。如果我将数据存储切换到 Cassandra,注入会按预期工作,因此 Nutch 本身似乎也可以工作。

有人知道我错过了什么或了解 hadoop.log 试图告诉我的内容吗?

任何帮助,将不胜感激!谢谢。

更新:我还尝试在 Ubuntu 14.04 服务器上使用此配置 - 按预期工作。所以我想我的问题与在 Mac 上运行的 Nutch 和 MongoDB 之间的连接有关。(如果有人想知道:我正在尝试让配置在我的 Mac 上运行,因为我想做一些不需要服务器连接的本地开发。)

0 投票
1 回答
909 浏览

java - Apache Nutch:FetcherJob 在 Gora 中引发 NoSuchElementException

我正在运行 Apache Nutch 2.3.1,它使用 Gora 0.6.1。我已按照此处的说明进行操作:http ://wiki.apache.org/nutch/RunNutchInEclipse

它运行良好InjectorJob

现在我正在运行FetcherJob, GoraMemStore用作数据存储。我已经gora.properties包含

这抛出:

这种情况发生在 Nutch 和 Gora 的深处,我不知道为什么会这样。我尝试升级到 Gora 0.8 但同样的问题。我尝试将 Gora 降级到 0.6,同样的问题。我想切换到像 hBase 这样的另一个数据存储,但这对于我目前需要的东西来说有点矫枉过正。

请帮我解决这个问题。

0 投票
1 回答
74 浏览

properties - 如何在 giraph 中为 gora avrostore 提供多个输入路径(或)如何使 giraph 读取多个输入文件

如何让 giraph 从多个输入路径读取数据。我在 gora.properties 中使用它

gora.datastore.default = org.apache.gora.avro.store.Avrostore gora.avrostore.input.path=file:///path/to/file1.avro,file:///path/to/file2.avro

但它给出了这个错误 Input path does not exist: file:/path/to/file1.avro,file:/path/to/file2.avro

0 投票
1 回答
52 浏览

java - 使用 Apache Gora 0.6 配置使用 MongoDB

我使用 MongoDB 作为我的 nutch 实现的 Gora 后端。我需要从 MongoDB 中删除一些文档。我没有编写基于 Java 和 MongoDB 的自定义类,而是尝试查看是否可以使用现有的 Gora API 来完成这项工作。尝试了很多但没有太多可用的信息。请让我知道您的想法和实现相同目标的任何指示。大多数情况下,这个URL 已经来拯救,但它并没有完全帮助。谢谢!

0 投票
1 回答
113 浏览

java - 基于 HBase 的 Apache Gora

我们计划基于 HBase 实现数据仓库。

有多个实体具有类似父子关系的关系,或者换句话说,我们有嵌套。

根据 HBase,我们可以将这些嵌套实体作为值 [as json / avro] 存储在 columnFamily 之一中。

我们正在寻找 Phoenix 进行实时查询,我遇到了 Apache Gora 作为选项之一。根据文档,Apache Gora 提供了嵌套实体,但示例和文档有限。

有没有人在 HBase 上使用 Apache Gora 的示例或经验

0 投票
1 回答
421 浏览

hadoop - 如何用 Hbase 1.2.6 编译 Nutch 2.3.1

我必须使用 Nutch 2.3.1 设置 hadoop 堆栈。hadoop 2.7.4 支持的 Hbase 版本是 1.2.6,我已经配置并测试成功。但是当我编译 Nutch 时,我得到了关注并抓取了一个示例页面,我得到了这个错误。

根据我的thisthis等搜索,Hbase 1.x可以编译为Nutch 2.3.1。但是如何编译我不知道。有人可以指导(步骤等)

0 投票
1 回答
40 浏览

java - Nutch:Nutch + Cassandra 的哪个版本真正有效?

我正在尝试使用 Nutch 进行一些爬行,我想测试 Cassandra 作为后端,但是使用最新版本的 nutch 及其依赖项 Cassandra 在您进行注入、生成、获取时会引发各种错误,等过程。

这些错误都与代码中的实际问题有关,而不是内存或配置不足。我已经通过修改 gora-cassandra 中的代码来修复其中的一些问题,但它仍然无法正常工作。

我的问题是,这两个项目的工作版本是否存在?通过工作,我的意思是您可以在至少一小组 url 上运行注入、生成、fech、解析、更新,而不会出错。

以下是在获取期间给出错误的类之一的示例:

org.apache.gora.cassandra.query.CassandraSuperColumn.getUnionIndex 处的 java.lang.NullPointerException

我已经使用 HBase 作为后端并且它只是工作,虽然 HBase 本身是一个需要管理的怪物,所以这就是我想测试 Cassandra 的原因。但是,我即将放弃这一点,因为我认为我不应该仅仅为了运行一个基本示例而修改 gora-cassandra 代码。

谢谢