“gora”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

676 浏览

apache - 设置和运行 apache nutch 2.2.1

我正在尝试在我的 ubuntu 桌面上设置和运行 apache nutch 2.2.1。作为一个新手，我发现官网给出的教程的某些部分有些混乱。

如果我要在自己的桌面上运行它，是否正确
/li>

运行 bin/nutch 命令？

我应该把名为 urls 的文件放在哪里？（其中有一个种子列表seed.txt）是不是在
/li>

如果我在正确的目录中，我在执行命令时遇到了这个问题

InjectorJob：使用类 org.apache.gora.memory.store.MemStore 作为 Gora 存储类。InjectorJob：过滤器拒绝的 url 总数：0 InjectorJob：规范化和过滤后注入的 url 总数：0 线程“main”java.lang.RuntimeException 中的异常：作业失败：name=generate：null，jobid=job_local1613558008_0002 at org .apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54) 在 org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:199) 在 org.apache.nutch.crawl.Crawler.runTool(Crawler .java:68) 在 org.apache.nutch.crawl.Crawler.run(Crawler.java:152) 在 org.apache.nutch.crawl.Crawler.run(Crawler.java:250) 在 org.apache.hadoop。 org.apache.nutch.crawl.Crawler.main(Crawler.java:257) 上的 util.ToolRunner.run(ToolRunner.java:65)

我正在关注教程 1 http://wiki.apache.org/nutch/NutchTutorial直到 3.3 并且尚未配置 GORA Hbase 等。似乎出现此问题是因为注入器没有获取 url。有谁知道如何解决这个问题？非常感谢！

2014-12-09T08:27:01.043

0 投票

0 回答

341 浏览

cassandra - scala nutch gora-cassandra - RuntimeException：作业失败

我正在尝试运行 nutch 并将抓取的数据加载到 cassandra 中。

我有我的 sbt 文件

我开始工作了

但我遇到了稍微模糊的错误编辑 - 从请求开始更新为完整日志

在 cassandra 中 - 在引发错误之前正在创建keyspace网页和表格。sc p f

编辑---如果我把所有（对不起，我知道的很长的清单）下面的罐子放在我的 lib 文件夹中——那么作业就会运行；前几条日志是关于连接到 cassandra 的。当我尝试仅使用 SBT 依赖项时，我看不到这些日志。

使用以下 jar 文件运行时的日志：

Jar 文件的完整列表

谢谢，布伦特

cassandra runtime-error nutch gora

2014-12-09T13:53:10.427

0 投票

1 回答

1369 浏览

nutch - Nutch、Gora 和 MongoDB

我正在尝试使用最新版本的 Gora (0.5) 在 Cygwin/Windows 7 上运行 Nutch (2.2.1)，以便我可以将数据保存到 MongoDB 数据存储区。我更改了 Nutch-Site.XML 文件以包含我的 Mongo 属性：

当我尝试使用 Maven 从命令行构建“gora-mongodb”项目时，出现了我的问题，其中 2 个测试失败 - testCountQuery 和 testWordCount 出现以下权限错误：

是否可以在不转移到 Ubuntu 等的情况下解决此权限错误？

谢谢，

O。

nutch gora

2014-12-12T19:21:16.817

0 投票

1 回答

636 浏览

nutch - gora-mongodb.mapping.XML 属性文件

我是 Nutch (2.2.1) 的新手，并尝试使用最新版本的 Gora (0.5) 在 Cygwin/Windows 7 上运行它，这样我就可以将数据保存到 MongoDB (2.6) 数据存储区。我更改了 Nutch-Site.XML 文件以包含我的 Mongo 属性，但我对这里需要的 gora-mongodb.mapping.XML 属性文件有点困惑。只是想知道我是否需要：

1) 在我在 gora-mongodb.mapping 文件的类名属性中指定的 Nutch/Gora 项目中创建一个 Java 类，还是 Gora 会为我创建这个？文档似乎不是很清楚。

2) 我在我的 apache-nutch-2.2.1\runtime\local\conf 文件夹中创建了一个示例文件，并添加了我的 MongoDB 集合的名称。当我运行 Nutch 时，出现以下错误：

任何有关此文件的帮助或说明将不胜感激。

nutch gora

2014-12-13T15:23:17.283

0 投票

1 回答

840 浏览

cassandra - 使用 Cassandra 作为存储的 Nutch 2 无法正确抓取数据

我正在使用使用 Cassandra 作为存储的 Nutch 2.x。目前我只抓取一个网站，数据以字节码格式加载到 Cassandra。当我在 Nutch 中使用 readdb 命令时，我确实得到了任何有用的爬取数据。

以下是我得到的不同文件和输出的详细信息：

==========命令运行爬虫=====================

========================seed.txt 数据====================== ====

=== readdb 命令的输出以从 cassandra 网页.f 表中读取数据======

===============regex-urlfilter.txt 的内容======================

===========困扰我的日志文件内容======================

如果您需要更多信息，请告诉我。有人可以帮帮我吗？

提前致谢。-苏曼特

cassandra web-crawler nutch gora

2015-02-19T19:40:30.713

0 投票

1 回答

79 浏览

apache - 在 Apache Gora 0.5 中检索所有表记录的最佳方法

我知道

有没有类似的东西

在创建查询时在 Apache Gora 中，这将返回我所有的结果集。

编辑* 我没有设置任何东西就执行了程序。但是，结果集仍然为空。

apache hbase gora

2015-03-01T15:56:31.093

0 投票

2 回答

992 浏览

web-crawler - Nutch 2.3 未在 Cassandra 中正确存储爬网数据

我正在使用带有 Cassandra 后端的 Nutch 2.3 的大多数默认选项进行爬行。作为种子列表，使用了一个包含 71 个 url 的文件，我正在使用以下命令进行爬网：

密钥存储在 Cassandra 中，并创建了 f、p 和 sc 列族，但是，如果我尝试读取 WebPage 对象，则内容和文本字段为空，尽管输出表明提取和解析器作业应该运行。

此外，尽管db.update.additions.allowed的默认值为true ，但不会向链接 db 添加新链接。

完成后，我尝试用下面的代码读出爬取数据。这仅显示一些正在填充的字段。查看 FetcherJob 和 ParserJob 中的代码，我看不出内容或文本字段应该为空的任何原因。我可能缺少一些基本设置，但谷歌搜索我的问题并没有产生任何结果。我还在 ParserMapper 和 FetcherMapper 中设置了断点，它们似乎被执行了。

有谁知道如何使用 Nutch 2 在 Cassandra 中存储获取/解析的内容？

这是我的 nutch-site.xml：

编辑

我使用的是 Cassandra 2.0.12，但我只是尝试使用 2.0.2 并没有解决问题。所以我正在使用的版本：

Nutch：2.3（git clone 在标签“release-2.3”处签出）
Gora: 0.5 in Nutch
卡桑德拉：2.0.2

将result.get()更改为dataStore.get(result.getKey()) 会导致某些字段实际上被填充，但内容和文本仍然是空的。

一些输出：

web-crawler nutch gora

2015-03-02T15:41:09.137

0 投票

1 回答

470 浏览

mongodb - Gora MongoDb 异常，无法序列化 Utf8

我正在尝试让 nutch 2.3 与 mongoDB 一起使用，但出现以下异常：

我找到了与此问题相关的以下票证，上面说应该在 nutch 2.3 中解决：https ://issues.apache.org/jira/browse/NUTCH-1843

Gora 项目还有一张票，上面说这个问题实际上在 Gora 0.6 中得到了解决，可以在https://issues.apache.org/jira/browse/GORA-388中找到。然而 Nutch 2.3 使用 gora 0.5。所以我看不出在 nutch 2.3 中如何解决这个问题。

我真的很想使用 MongoDB，但我似乎无法克服这个问题。有没有人深入了解这个问题？是配置问题吗？

mongodb nutch gora

2015-06-05T09:03:42.473

0 投票

0 回答

487 浏览

solr - 我可以将 Nutch 2.x 和 Gora 与 Solr 后端一起使用吗

Nutch 2.x 分支gora.properties文件将 Solr 列为 Nutch 的可能后端，但我在网上找不到任何文档。所以，两个问题：

我可以这样做：Nutch -> Gora -> Solr，并使用 SOLR 进行存储和索引吗？我找不到有关此特定设置的任何文档。
这样做有什么好处吗：Nutch -> Gora -> HBase -> Solr，其中 Solr 仅用于索引 HBase。这似乎是最常见的方法，但如果主要目标是使用 Solr 使用结果，则 HBase 似乎没有必要。

这是 2.x gora.properties：

solr nutch gora

2015-09-19T21:52:54.107

0 投票

1 回答

437 浏览

hsqldb - 使用 HSQL 2.3.3 配置 Nutch 2.3 - ClassNotFoundException：org/apache/avro/ipc/ByteBufferOutputStream

当我使用 HSQLDB 运行 apache Nutch 时，我得到 ClassNotFoundException : org/apache/avro/ipc/ByteBufferOutputStream 尽管我在 lib 下拥有所有与 avro 相关的 jar 文件

这就是我所做的：

启动并运行 HSQLDB
/li>
配置常春藤/ivy.xml

ivy.xml 中的以下行未注释

和

取消注释以下行 conf/gora.properites

跑蚂蚁构建
/li>
为 nutch-site.xml 添加了配置
/li>
在 urls 文件夹下创建了 seed.txt
通过注入 url 执行 nutch
/li>

hsqldb nutch avro gora

2015-12-26T15:41:05.060

问题标签 [gora]

Reference