问题标签 [gora]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
676 浏览

apache - 设置和运行 apache nutch 2.2.1

我正在尝试在我的 ubuntu 桌面上设置和运行 apache nutch 2.2.1。作为一个新手,我发现官网给出的教程的某些部分有些混乱。

  1. 如果我要在自己的桌面上运行它,是否正确

    /li>

运行 bin/nutch 命令?

  1. 我应该把名为 urls 的文件放在哪里?(其中有一个种子列表seed.txt)是不是在

    /li>

如果我在正确的目录中,我在执行命令时遇到了这个问题

InjectorJob:使用类 org.apache.gora.memory.store.MemStore 作为 Gora 存储类。InjectorJob:过滤器拒绝的 url 总数:0 InjectorJob:规范化和过滤后注入的 url 总数:0 线程“main”java.lang.RuntimeException 中的异常:作业失败:name=generate:null,jobid=job_local1613558008_0002 at org .apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54) 在 org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:199) 在 org.apache.nutch.crawl.Crawler.runTool(Crawler .java:68) 在 org.apache.nutch.crawl.Crawler.run(Crawler.java:152) 在 org.apache.nutch.crawl.Crawler.run(Crawler.java:250) 在 org.apache.hadoop。 org.apache.nutch.crawl.Crawler.main(Crawler.java:257) 上的 util.ToolRunner.run(ToolRunner.java:65)

我正在关注教程 1 http://wiki.apache.org/nutch/NutchTutorial直到 3.3 并且尚未配置 GORA Hbase 等。似乎出现此问题是因为注入器没有获取 url。有谁知道如何解决这个问题?非常感谢!

0 投票
0 回答
341 浏览

cassandra - scala nutch gora-cassandra - RuntimeException:作业失败

我正在尝试运行 nutch 并将抓取的数据加载到 cassandra 中。

我有我的 sbt 文件

我开始工作了

但我遇到了稍微模糊的错误编辑 - 从请求开始更新为完整日志

在 cassandra 中 - 在引发错误之前正在创建keyspace网页和表格。sc p f

编辑---如果我把所有(对不起,我知道的很长的清单)下面的罐子放在我的 lib 文件夹中——那么作业就会运行;前几条日志是关于连接到 cassandra 的。当我尝试仅使用 SBT 依赖项时,我看不到这些日志。

使用以下 jar 文件运行时的日志:

Jar 文件的完整列表

谢谢,布伦特

0 投票
1 回答
1369 浏览

nutch - Nutch、Gora 和 MongoDB

我正在尝试使用最新版本的 Gora (0.5) 在 Cygwin/Windows 7 上运行 Nutch (2.2.1),以便我可以将数据保存到 MongoDB 数据存储区。我更改了 Nutch-Site.XML 文件以包含我的 Mongo 属性:

当我尝试使用 Maven 从命令行构建“gora-mongodb”项目时,出现了我的问题,其中 2 个测试失败 - testCountQuery 和 testWordCount 出现以下权限错误:

是否可以在不转移到 Ubuntu 等的情况下解决此权限错误?

谢谢,

O。

0 投票
1 回答
636 浏览

nutch - gora-mongodb.mapping.XML 属性文件

我是 Nutch (2.2.1) 的新手,并尝试使用最新版本的 Gora (0.5) 在 Cygwin/Windows 7 上运行它,这样我就可以将数据保存到 MongoDB (2.6) 数据存储区。我更改了 Nutch-Site.XML 文件以包含我的 Mongo 属性,但我对这里需要的 gora-mongodb.mapping.XML 属性文件有点困惑。只是想知道我是否需要:

1) 在我在 gora-mongodb.mapping 文件的类名属性中指定的 Nutch/Gora 项目中创建一个 Java 类,还是 Gora 会为我创建这个?文档似乎不是很清楚。

2) 我在我的 apache-nutch-2.2.1\runtime\local\conf 文件夹中创建了一个示例文件,并添加了我的 MongoDB 集合的名称。当我运行 Nutch 时,出现以下错误:

任何有关此文件的帮助或说明将不胜感激。

0 投票
1 回答
840 浏览

cassandra - 使用 Cassandra 作为存储的 Nutch 2 无法正确抓取数据

我正在使用使用 Cassandra 作为存储的 Nutch 2.x。目前我只抓取一个网站,数据以字节码格式加载到 Cassandra。当我在 Nutch 中使用 readdb 命令时,我确实得到了任何有用的爬取数据。

以下是我得到的不同文件和输出的详细信息:

==========命令运行爬虫=====================

========================seed.txt 数据====================== ====

=== readdb 命令的输出以从 cassandra 网页.f 表中读取数据======

===============regex-urlfilter.txt 的内容======================

===========困扰我的日志文件内容======================

如果您需要更多信息,请告诉我。有人可以帮帮我吗 ?

提前致谢。-苏曼特

0 投票
1 回答
79 浏览

apache - 在 Apache Gora 0.5 中检索所有表记录的最佳方法

我知道

有没有类似的东西

在创建查询时在 Apache Gora 中,这将返回我所有的结果集。

编辑* 我没有设置任何东西就执行了程序。但是,结果集仍然为空。

0 投票
2 回答
992 浏览

web-crawler - Nutch 2.3 未在 Cassandra 中正确存储爬网数据

我正在使用带有 Cassandra 后端的 Nutch 2.3 的大多数默认选项进行爬行。作为种子列表,使用了一个包含 71 个 url 的文件,我正在使用以下命令进行爬网:

密钥存储在 Cassandra 中,并创建了 f、p 和 sc 列族,但是,如果我尝试读取 WebPage 对象,则内容和文本字段为空,尽管输出表明提取和解析器作业应该运行。

此外,尽管db.update.additions.allowed的默认值为true ,但不会向链接 db 添加新链接。

完成后,我尝试用下面的代码读出爬取数据。这仅显示一些正在填充的字段。查看 FetcherJob 和 ParserJob 中的代码,我看不出内容文本字段应该为空的任何原因。我可能缺少一些基本设置,但谷歌搜索我的问题并没有产生任何结果。我还在 ParserMapper 和 FetcherMapper 中设置了断点,它们似乎被执行了。

有谁知道如何使用 Nutch 2 在 Cassandra 中存储获取/解析的内容?

这是我的 nutch-site.xml:

编辑

我使用的是 Cassandra 2.0.12,但我只是尝试使用 2.0.2 并没有解决问题。所以我正在使用的版本:

  • Nutch:2.3(git clone 在标签“release-2.3”处签出)
  • Gora: 0.5 in Nutch
  • 卡桑德拉:2.0.2

将result.get()更改为dataStore.get(result.getKey()) 会导致某些字段实际上被填充,但内容和文本仍然是空的。

一些输出:

0 投票
1 回答
470 浏览

mongodb - Gora MongoDb 异常,无法序列化 Utf8

我正在尝试让 nutch 2.3 与 mongoDB 一起使用,但出现以下异常:

我找到了与此问题相关的以下票证,上面说应该在 nutch 2.3 中解决:https ://issues.apache.org/jira/browse/NUTCH-1843

Gora 项目还有一张票,上面说这个问题实际上在 Gora 0.6 中得到了解决,可以在https://issues.apache.org/jira/browse/GORA-388中找到。然而 Nutch 2.3 使用 gora 0.5。所以我看不出在 nutch 2.3 中如何解决这个问题。

我真的很想使用 MongoDB,但我似乎无法克服这个问题。有没有人深入了解这个问题?是配置问题吗?

0 投票
0 回答
487 浏览

solr - 我可以将 Nutch 2.x 和 Gora 与 Solr 后端一起使用吗

Nutch 2.x 分支gora.properties文件将 Solr 列为 Nutch 的可能后端,但我在网上找不到任何文档。所以,两个问题:

  1. 我可以这样做:Nutch -> Gora -> Solr,并使用 SOLR 进行存储和索引吗?我找不到有关此特定设置的任何文档。

  2. 这样做有什么好处吗:Nutch -> Gora -> HBase -> Solr,其中 Solr 仅用于索引 HBase。这似乎是最常见的方法,但如果主要目标是使用 Solr 使用结果,则 HBase 似乎没有必要。

这是 2.x gora.properties

0 投票
1 回答
437 浏览

hsqldb - 使用 HSQL 2.3.3 配置 Nutch 2.3 - ClassNotFoundException:org/apache/avro/ipc/ByteBufferOutputStream

当我使用 HSQLDB 运行 apache Nutch 时,我得到 ClassNotFoundException : org/apache/avro/ipc/ByteBufferOutputStream 尽管我在 lib 下拥有所有与 avro 相关的 jar 文件

这就是我所做的:

  1. 启动并运行 HSQLDB

    /li>
  2. 配置常春藤/ivy.xml

ivy.xml 中的以下行未注释

取消注释以下行 conf/gora.properites

  1. 跑蚂蚁构建

    /li>
  2. 为 nutch-site.xml 添加了配置

    /li>
  3. 在 urls 文件夹下创建了 seed.txt

  4. 通过注入 url 执行 nutch

    /li>