问题标签 [gora]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nutch - nutch 生成期间的运行时异常
我正在尝试第一次运行 nutch 并在执行时
/bin/nutch 生成 -topN 5
我得到以下异常:
这是 hadoop.log 的堆栈跟踪:
我一直在关注这里的教程:https ://github.com/renepickhardt/metalcon/wiki/simpleNutchSolrSetup用于设置 nutch。
我看过一些关于 stackoverflow 和 nutch 档案的帖子,但有类似的例外,他们建议我的 /tmp 目录中的磁盘空间可能用完了,但 /tmp 目录上只有大约 8MB 的数据. 除此之外,我对导致此异常的原因一无所知
此异常的原因可能是什么?
我使用 Nutch 2.3.1 和 HBase 1.1.3 作为数据存储,我在 Ubuntu 15.10 上运行它
谢谢
java - Apache Groa 找不到主类错误
当我尝试使用 运行 apache gora 编译器时,出现以下错误 ./gora goracompiler
Error: Could not find or load main class org.apache.gora.compiler.cli.GoraCompilerCLI
在此之前我得到 JAVA_HOME not set 错误之后我通过设置 JAVA_HOME 变量解决了该错误
OS: Cent OS 6.5
Java version : java version "1.7.0_45"
OpenJDK Runtime Environment (rhel-2.4.3.3.el6-x86_64 u45-b15)
OpenJDK 64-Bit Server VM (build 24.45-b08, mixed mode)
solr - Nutch2.3.1 在注入、解析获取、生成时挂起
macos - OSX 上的 Nutch 2.3.1 无法连接到 MongoDB
我在 Eclipse 中运行的 MacOS 10.11.5 (El Capitan) 上配置了一个本地 Nutch 2.3.1 实例,如下所述:https ://wiki.apache.org/nutch/RunNutchInEclipse
作为要使用的数据存储,我配置了 MongoDB 2.6.12,它也在我的本地 MacOS 机器上运行。我从这里获取了 Gora 配置:http ://www.aossama.com/search-engine-with-apache-nutch-mongodb-and-elasticsearch/
常春藤.xml
gora.properties
我没有更改gora-mongodb-mapping.xml。
nutch-site.xml
如果我运行注入命令,hadoop.log 会显示这个令人困惑的结果:
两天后,我的想法已经用完了。
在日志文件中,我无法识别任何有价值的提示。MongoDB 日志不显示任何连接尝试(更不用说活动连接)。使用mongo
我能够连接到数据库并请求http://localhost:27017会显示预期的消息(“看起来您正试图在本机驱动程序端口上通过 HTTP 访问 MongoDB。”)和相应的日志文件条目。如果我将数据存储切换到 Cassandra,注入会按预期工作,因此 Nutch 本身似乎也可以工作。
有人知道我错过了什么或了解 hadoop.log 试图告诉我的内容吗?
任何帮助,将不胜感激!谢谢。
更新:我还尝试在 Ubuntu 14.04 服务器上使用此配置 - 按预期工作。所以我想我的问题与在 Mac 上运行的 Nutch 和 MongoDB 之间的连接有关。(如果有人想知道:我正在尝试让配置在我的 Mac 上运行,因为我想做一些不需要服务器连接的本地开发。)
java - Apache Nutch:FetcherJob 在 Gora 中引发 NoSuchElementException
我正在运行 Apache Nutch 2.3.1,它使用 Gora 0.6.1。我已按照此处的说明进行操作:http ://wiki.apache.org/nutch/RunNutchInEclipse
它运行良好InjectorJob
。
现在我正在运行FetcherJob
, GoraMemStore
用作数据存储。我已经gora.properties
包含
这抛出:
这种情况发生在 Nutch 和 Gora 的深处,我不知道为什么会这样。我尝试升级到 Gora 0.8 但同样的问题。我尝试将 Gora 降级到 0.6,同样的问题。我想切换到像 hBase 这样的另一个数据存储,但这对于我目前需要的东西来说有点矫枉过正。
请帮我解决这个问题。
properties - 如何在 giraph 中为 gora avrostore 提供多个输入路径(或)如何使 giraph 读取多个输入文件
如何让 giraph 从多个输入路径读取数据。我在 gora.properties 中使用它
gora.datastore.default = org.apache.gora.avro.store.Avrostore gora.avrostore.input.path=file:///path/to/file1.avro,file:///path/to/file2.avro
但它给出了这个错误 Input path does not exist: file:/path/to/file1.avro,file:/path/to/file2.avro
java - 使用 Apache Gora 0.6 配置使用 MongoDB
我使用 MongoDB 作为我的 nutch 实现的 Gora 后端。我需要从 MongoDB 中删除一些文档。我没有编写基于 Java 和 MongoDB 的自定义类,而是尝试查看是否可以使用现有的 Gora API 来完成这项工作。尝试了很多但没有太多可用的信息。请让我知道您的想法和实现相同目标的任何指示。大多数情况下,这个URL 已经来拯救,但它并没有完全帮助。谢谢!
java - 基于 HBase 的 Apache Gora
我们计划基于 HBase 实现数据仓库。
有多个实体具有类似父子关系的关系,或者换句话说,我们有嵌套。
根据 HBase,我们可以将这些嵌套实体作为值 [as json / avro] 存储在 columnFamily 之一中。
我们正在寻找 Phoenix 进行实时查询,我遇到了 Apache Gora 作为选项之一。根据文档,Apache Gora 提供了嵌套实体,但示例和文档有限。
有没有人在 HBase 上使用 Apache Gora 的示例或经验
java - Nutch:Nutch + Cassandra 的哪个版本真正有效?
我正在尝试使用 Nutch 进行一些爬行,我想测试 Cassandra 作为后端,但是使用最新版本的 nutch 及其依赖项 Cassandra 在您进行注入、生成、获取时会引发各种错误,等过程。
这些错误都与代码中的实际问题有关,而不是内存或配置不足。我已经通过修改 gora-cassandra 中的代码来修复其中的一些问题,但它仍然无法正常工作。
我的问题是,这两个项目的工作版本是否存在?通过工作,我的意思是您可以在至少一小组 url 上运行注入、生成、fech、解析、更新,而不会出错。
以下是在获取期间给出错误的类之一的示例:
org.apache.gora.cassandra.query.CassandraSuperColumn.getUnionIndex 处的 java.lang.NullPointerException
我已经使用 HBase 作为后端并且它只是工作,虽然 HBase 本身是一个需要管理的怪物,所以这就是我想测试 Cassandra 的原因。但是,我即将放弃这一点,因为我认为我不应该仅仅为了运行一个基本示例而修改 gora-cassandra 代码。
谢谢