问题标签 [nutch2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
75 浏览

solr - Apache Nutch 部分页面处理技巧

我已经为 Nutch 2.3.1 配置了 Hadoop/Hbase 生态系统。这个想法主要是抓取和索引故事页面。为此,我准备了一些域的种子。现在我在 Nutch 中面临一些逻辑问题,即它的行为类似于域的所有级别。让我们举个例子。假设,在获取几个域的主页后,有一些文档实际上不是故事页面,而是一些部分,例如,在新闻网站中有不同的新闻类别链接。如果用户点击一个类别,例如国家,那么新页面将包含很多该类别的新闻。Nutch 抓取该页面,并将许多页面的一些文本存储为其内容。一段时间后,这些页面会改变(更新新闻),如果这些页面被索引,那么在搜索后如果用户转到这个页面,那么文本就会改变。这里只是一个示例页面。

我应该如何以及在哪里处理这种情况?我认为它应该在某个 Nutch 阶段进行处理,以便它应该获取这样的页面,选择它的 url 以向前移动,但不要索引这些页面。这个选项在 Nutch 中是否可用,如果没有,可能的方法是什么?

0 投票
1 回答
167 浏览

web-crawler - 针对特定语言内容的 Apache Nutch 排名算法

我已经用 Hadoop/Hbase 生态系统配置了 Nutch 2.3.1 来抓取乌尔都语语言内容。对于语言检测,我定制了 fetcher 并在那时查找语言。如果文档没有足够的乌尔都语(字节),那么我故意将其状态设置为已消失,以停止使用空内容增长此边缘。我还必须找到新的乌尔都语域。

我仍然面临选择获取网址的问题。随着时间的推移,inlinks 数据越来越多,其中包括许多不在乌尔都语中的 URL。Nutch 正在选择(生成器)大约 90% 的这些没有乌尔都语内容的 url。由于这个原因,我的资源被浪费了,因为获取的新乌尔都语内容数量非常少。

我如何通知 Nutch 更喜欢那些可能包含乌尔都语内容的域文档?我想我必须以某种方式自定义排名算法。实现我的目标的可能方法是什么?

0 投票
1 回答
15 浏览

solr - 使用 nutch 中的 solrindexing 作业查找 solr 中已存在文档的数量

在 nutch 中,在 solrindex 作业中,我们如何计算 solr 中已更新的文档数以及已索引为新文档的文档数。

0 投票
1 回答
59 浏览

java - Apache Hadoop 与 Gora 中的组合器功能

我有一个简单的 Hadoop、Nutch 2.x、Hbase 集群。我必须写一个能找到一些统计数据的 MR 工作。这是两步工作,即,我想我也需要组合器功能。在简单的 Hadoop 作业中,它不是一个大问题,因为给出了很多指南,例如这个。但我找不到任何将组合器与 Gora 一起使用的选项。我的统计数据将被添加到 Hbase 的页面中,这就是为什么我无法了解 Gora(我认为)。以下是我希望添加 com 的代码片段

0 投票
1 回答
114 浏览

nutch - 在 Nutch 中配置 RAM

我正在使用 Nutch 1.10 为我的组织抓取网站。我使用具有 16Gb RAM 的系统来执行此爬取。截至目前,我的 nutch 文件在爬取数据时仅使用 3-4Gb 的 RAM,完成它需要将近 10 个小时。有什么方法可以让我将 nutch 配置为使用超过 12Gb 的 RAM 来完成相同的任务?欢迎所有建议!

0 投票
1 回答
84 浏览

hadoop - Apache Nutch 2.3.1,增加reducer内存

如果 Hadoop 和 Hbase 用于Nutch 2.3.1. hadoop 版本是 2.7.7,Hbase 是 0.98。我已经定制了一个 hadoop 作业,现在我必须在驱动程序类中为减速器任务设置内存。我知道,在简单的 hadoop MR 工作中,您可以使用JobConfmethod setMemoryForReducer。但是 Nutch 中没有任何可用的选项。就我而言,目前,reducer 内存通过mapred-site.xml(Hadoop 配置)设置为 4 GB。但对于 Nutch,我必须加倍。

是否可以通过驱动程序类或 nutch-site.xml 更改 hadoop conf 文件

0 投票
1 回答
140 浏览

java - Apache Nutch 跳过 URL 和截断

在我的 nutch-site.xml 中,我添加以下内容以停止截断;但是,在获取过程中,我收到以下错误。我希望它停止截断并提供我需要的结果,我假设 -1 值可以实现。我使用的是 2.2.1 版。有任何想法吗?

线程“主”java.lang.RuntimeException 中的异常:作业失败:在 org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:55) 在 org.apache.nutch.fetcher 的 name=fetch, jobid=job_local1185573074_0001。 FetcherJob.run(FetcherJob.java:194) at org.apache.nutch.fetcher.FetcherJob.fetch(FetcherJob.java:219) at org.apache.nutch.fetcher.FetcherJob.run(FetcherJob.java:301) at org .apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 在 org.apache.nutch.fetcher.FetcherJob.main(FetcherJob.java:307)

0 投票
0 回答
61 浏览

http - 使用 curl 进行 nutch RESTapi 调用时出错

我正在使用 curl 对在 ubuntu 实例上运行的 nutch 服务器进行 RESTapi 调用。当我使用 curl 进行以下调用以在我的服务器上创建我的种子文件时

curl -X POST http://**.185.***.**:8081/seed/create -d {"id": "ubuntu", "name": "servertest1", "seedUrls": [{"id":1,"seedList":null,"url":"http://www.******.com/"}]}

我收到以下错误

提前感谢您的帮助,我是 HTTP 调用的新手,所以我很迷茫

0 投票
1 回答
91 浏览

solr - Apache Nutch 仅索引 Solr 的文章页面

我已经设置了 Nutch 1.17 来抓取几个网站。像往常一样,高层可以有两种类型的网页。首先是类别页面或主页,不包含任何特定故事的详细信息,但提供多个页面的链接和短文本。其次,有些页面包含详细的完整故事信息,即文章。

现在我的问题是如何确定这是实际的文章页面,而该页面是类别页面。此外,我也有兴趣仅索引故事页面?

我认为 Nutch 默认没有任何东西。我怎样才能实现这种行为?

0 投票
0 回答
54 浏览

web-crawler - Nutch - 一次又一次地访问几页以找到新的链接

我已经设置 Nutch 1.17 来抓取几千个域,只使用内链抓取。我的主要要求之一是我应该一次又一次地访问主页(让我们说 2 小时后),如果有任何新页面,那么只有那个应该被抓取。

最好的方法应该是什么?我正在考虑一次又一次地爬取运行注入器作业以爬取主页。这是正确的方法吗?同时,我应该如何确保链接也会随着时间的推移而获取。