问题标签 [gora]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache - 设置和运行 apache nutch 2.2.1
我正在尝试在我的 ubuntu 桌面上设置和运行 apache nutch 2.2.1。作为一个新手,我发现官网给出的教程的某些部分有些混乱。
如果我要在自己的桌面上运行它,是否正确
/li>
运行 bin/nutch 命令?
我应该把名为 urls 的文件放在哪里?(其中有一个种子列表seed.txt)是不是在
/li>
如果我在正确的目录中,我在执行命令时遇到了这个问题
InjectorJob:使用类 org.apache.gora.memory.store.MemStore 作为 Gora 存储类。InjectorJob:过滤器拒绝的 url 总数:0 InjectorJob:规范化和过滤后注入的 url 总数:0 线程“main”java.lang.RuntimeException 中的异常:作业失败:name=generate:null,jobid=job_local1613558008_0002 at org .apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54) 在 org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:199) 在 org.apache.nutch.crawl.Crawler.runTool(Crawler .java:68) 在 org.apache.nutch.crawl.Crawler.run(Crawler.java:152) 在 org.apache.nutch.crawl.Crawler.run(Crawler.java:250) 在 org.apache.hadoop。 org.apache.nutch.crawl.Crawler.main(Crawler.java:257) 上的 util.ToolRunner.run(ToolRunner.java:65)
我正在关注教程 1 http://wiki.apache.org/nutch/NutchTutorial直到 3.3 并且尚未配置 GORA Hbase 等。似乎出现此问题是因为注入器没有获取 url。有谁知道如何解决这个问题?非常感谢!
cassandra - scala nutch gora-cassandra - RuntimeException:作业失败
我正在尝试运行 nutch 并将抓取的数据加载到 cassandra 中。
我有我的 sbt 文件
我开始工作了
但我遇到了稍微模糊的错误编辑 - 从请求开始更新为完整日志
在 cassandra 中 - 在引发错误之前正在创建keyspace
网页和表格。sc p f
编辑---如果我把所有(对不起,我知道的很长的清单)下面的罐子放在我的 lib 文件夹中——那么作业就会运行;前几条日志是关于连接到 cassandra 的。当我尝试仅使用 SBT 依赖项时,我看不到这些日志。
使用以下 jar 文件运行时的日志:
Jar 文件的完整列表
谢谢,布伦特
nutch - Nutch、Gora 和 MongoDB
我正在尝试使用最新版本的 Gora (0.5) 在 Cygwin/Windows 7 上运行 Nutch (2.2.1),以便我可以将数据保存到 MongoDB 数据存储区。我更改了 Nutch-Site.XML 文件以包含我的 Mongo 属性:
当我尝试使用 Maven 从命令行构建“gora-mongodb”项目时,出现了我的问题,其中 2 个测试失败 - testCountQuery 和 testWordCount 出现以下权限错误:
是否可以在不转移到 Ubuntu 等的情况下解决此权限错误?
谢谢,
O。
nutch - gora-mongodb.mapping.XML 属性文件
我是 Nutch (2.2.1) 的新手,并尝试使用最新版本的 Gora (0.5) 在 Cygwin/Windows 7 上运行它,这样我就可以将数据保存到 MongoDB (2.6) 数据存储区。我更改了 Nutch-Site.XML 文件以包含我的 Mongo 属性,但我对这里需要的 gora-mongodb.mapping.XML 属性文件有点困惑。只是想知道我是否需要:
1) 在我在 gora-mongodb.mapping 文件的类名属性中指定的 Nutch/Gora 项目中创建一个 Java 类,还是 Gora 会为我创建这个?文档似乎不是很清楚。
2) 我在我的 apache-nutch-2.2.1\runtime\local\conf 文件夹中创建了一个示例文件,并添加了我的 MongoDB 集合的名称。当我运行 Nutch 时,出现以下错误:
任何有关此文件的帮助或说明将不胜感激。
cassandra - 使用 Cassandra 作为存储的 Nutch 2 无法正确抓取数据
我正在使用使用 Cassandra 作为存储的 Nutch 2.x。目前我只抓取一个网站,数据以字节码格式加载到 Cassandra。当我在 Nutch 中使用 readdb 命令时,我确实得到了任何有用的爬取数据。
以下是我得到的不同文件和输出的详细信息:
==========命令运行爬虫=====================
========================seed.txt 数据====================== ====
=== readdb 命令的输出以从 cassandra 网页.f 表中读取数据======
===============regex-urlfilter.txt 的内容======================
===========困扰我的日志文件内容======================
如果您需要更多信息,请告诉我。有人可以帮帮我吗 ?
提前致谢。-苏曼特
apache - 在 Apache Gora 0.5 中检索所有表记录的最佳方法
我知道
有没有类似的东西
在创建查询时在 Apache Gora 中,这将返回我所有的结果集。
编辑* 我没有设置任何东西就执行了程序。但是,结果集仍然为空。
web-crawler - Nutch 2.3 未在 Cassandra 中正确存储爬网数据
我正在使用带有 Cassandra 后端的 Nutch 2.3 的大多数默认选项进行爬行。作为种子列表,使用了一个包含 71 个 url 的文件,我正在使用以下命令进行爬网:
密钥存储在 Cassandra 中,并创建了 f、p 和 sc 列族,但是,如果我尝试读取 WebPage 对象,则内容和文本字段为空,尽管输出表明提取和解析器作业应该运行。
此外,尽管db.update.additions.allowed的默认值为true ,但不会向链接 db 添加新链接。
完成后,我尝试用下面的代码读出爬取数据。这仅显示一些正在填充的字段。查看 FetcherJob 和 ParserJob 中的代码,我看不出内容或文本字段应该为空的任何原因。我可能缺少一些基本设置,但谷歌搜索我的问题并没有产生任何结果。我还在 ParserMapper 和 FetcherMapper 中设置了断点,它们似乎被执行了。
有谁知道如何使用 Nutch 2 在 Cassandra 中存储获取/解析的内容?
这是我的 nutch-site.xml:
编辑
我使用的是 Cassandra 2.0.12,但我只是尝试使用 2.0.2 并没有解决问题。所以我正在使用的版本:
- Nutch:2.3(git clone 在标签“release-2.3”处签出)
- Gora: 0.5 in Nutch
- 卡桑德拉:2.0.2
将result.get()更改为dataStore.get(result.getKey()) 会导致某些字段实际上被填充,但内容和文本仍然是空的。
一些输出:
mongodb - Gora MongoDb 异常,无法序列化 Utf8
我正在尝试让 nutch 2.3 与 mongoDB 一起使用,但出现以下异常:
我找到了与此问题相关的以下票证,上面说应该在 nutch 2.3 中解决:https ://issues.apache.org/jira/browse/NUTCH-1843
Gora 项目还有一张票,上面说这个问题实际上在 Gora 0.6 中得到了解决,可以在https://issues.apache.org/jira/browse/GORA-388中找到。然而 Nutch 2.3 使用 gora 0.5。所以我看不出在 nutch 2.3 中如何解决这个问题。
我真的很想使用 MongoDB,但我似乎无法克服这个问题。有没有人深入了解这个问题?是配置问题吗?
solr - 我可以将 Nutch 2.x 和 Gora 与 Solr 后端一起使用吗
Nutch 2.x 分支gora.properties
文件将 Solr 列为 Nutch 的可能后端,但我在网上找不到任何文档。所以,两个问题:
我可以这样做:
Nutch -> Gora -> Solr
,并使用 SOLR 进行存储和索引吗?我找不到有关此特定设置的任何文档。这样做有什么好处吗:
Nutch -> Gora -> HBase -> Solr
,其中 Solr 仅用于索引 HBase。这似乎是最常见的方法,但如果主要目标是使用 Solr 使用结果,则 HBase 似乎没有必要。
这是 2.x gora.properties:
hsqldb - 使用 HSQL 2.3.3 配置 Nutch 2.3 - ClassNotFoundException:org/apache/avro/ipc/ByteBufferOutputStream
当我使用 HSQLDB 运行 apache Nutch 时,我得到 ClassNotFoundException : org/apache/avro/ipc/ByteBufferOutputStream 尽管我在 lib 下拥有所有与 avro 相关的 jar 文件
这就是我所做的:
启动并运行 HSQLDB
/li>配置常春藤/ivy.xml
ivy.xml 中的以下行未注释
和
取消注释以下行 conf/gora.properites
跑蚂蚁构建
/li>为 nutch-site.xml 添加了配置
/li>在 urls 文件夹下创建了 seed.txt
通过注入 url 执行 nutch
/li>