“nutch2”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

75 浏览

solr - Apache Nutch 部分页面处理技巧

我已经为 Nutch 2.3.1 配置了 Hadoop/Hbase 生态系统。这个想法主要是抓取和索引故事页面。为此，我准备了一些域的种子。现在我在 Nutch 中面临一些逻辑问题，即它的行为类似于域的所有级别。让我们举个例子。假设，在获取几个域的主页后，有一些文档实际上不是故事页面，而是一些部分，例如，在新闻网站中有不同的新闻类别链接。如果用户点击一个类别，例如国家，那么新页面将包含很多该类别的新闻。Nutch 抓取该页面，并将许多页面的一些文本存储为其内容。一段时间后，这些页面会改变（更新新闻），如果这些页面被索引，那么在搜索后如果用户转到这个页面，那么文本就会改变。这里只是一个示例页面。

我应该如何以及在哪里处理这种情况？我认为它应该在某个 Nutch 阶段进行处理，以便它应该获取这样的页面，选择它的 url 以向前移动，但不要索引这些页面。这个选项在 Nutch 中是否可用，如果没有，可能的方法是什么？

2018-08-03T09:44:58.197

0 投票

1 回答

167 浏览

web-crawler - 针对特定语言内容的 Apache Nutch 排名算法

我已经用 Hadoop/Hbase 生态系统配置了 Nutch 2.3.1 来抓取乌尔都语语言内容。对于语言检测，我定制了 fetcher 并在那时查找语言。如果文档没有足够的乌尔都语（字节），那么我故意将其状态设置为已消失，以停止使用空内容增长此边缘。我还必须找到新的乌尔都语域。

我仍然面临选择获取网址的问题。随着时间的推移，inlinks 数据越来越多，其中包括许多不在乌尔都语中的 URL。Nutch 正在选择（生成器）大约 90% 的这些没有乌尔都语内容的 url。由于这个原因，我的资源被浪费了，因为获取的新乌尔都语内容数量非常少。

我如何通知 Nutch 更喜欢那些可能包含乌尔都语内容的域文档？我想我必须以某种方式自定义排名算法。实现我的目标的可能方法是什么？

web-crawler nutch nutch2

2018-08-27T11:28:28.300

0 投票

1 回答

15 浏览

solr - 使用 nutch 中的 solrindexing 作业查找 solr 中已存在文档的数量

在 nutch 中，在 solrindex 作业中，我们如何计算 solr 中已更新的文档数以及已索引为新文档的文档数。

solr nutch2

2018-11-07T11:11:52.470

0 投票

1 回答

59 浏览

java - Apache Hadoop 与 Gora 中的组合器功能

我有一个简单的 Hadoop、Nutch 2.x、Hbase 集群。我必须写一个能找到一些统计数据的 MR 工作。这是两步工作，即，我想我也需要组合器功能。在简单的 Hadoop 作业中，它不是一个大问题，因为给出了很多指南，例如这个。但我找不到任何将组合器与 Gora 一起使用的选项。我的统计数据将被添加到 Hbase 的页面中，这就是为什么我无法了解 Gora（我认为）。以下是我希望添加 com 的代码片段

java hadoop nutch gora nutch2

2019-01-02T09:17:57.087

0 投票

1 回答

114 浏览

nutch - 在 Nutch 中配置 RAM

我正在使用 Nutch 1.10 为我的组织抓取网站。我使用具有 16Gb RAM 的系统来执行此爬取。截至目前，我的 nutch 文件在爬取数据时仅使用 3-4Gb 的 RAM，完成它需要将近 10 个小时。有什么方法可以让我将 nutch 配置为使用超过 12Gb 的 RAM 来完成相同的任务？欢迎所有建议！

nutch nutch2

2019-01-22T04:53:58.127

0 投票

1 回答

84 浏览

hadoop - Apache Nutch 2.3.1，增加reducer内存

如果 Hadoop 和 Hbase 用于Nutch 2.3.1. hadoop 版本是 2.7.7，Hbase 是 0.98。我已经定制了一个 hadoop 作业，现在我必须在驱动程序类中为减速器任务设置内存。我知道，在简单的 hadoop MR 工作中，您可以使用JobConfmethod setMemoryForReducer。但是 Nutch 中没有任何可用的选项。就我而言，目前，reducer 内存通过mapred-site.xml（Hadoop 配置）设置为 4 GB。但对于 Nutch，我必须加倍。

是否可以通过驱动程序类或 nutch-site.xml 更改 hadoop conf 文件

hadoop web-crawler nutch nutch2

2019-02-12T05:27:01.003

0 投票

1 回答

140 浏览

java - Apache Nutch 跳过 URL 和截断

在我的 nutch-site.xml 中，我添加以下内容以停止截断；但是，在获取过程中，我收到以下错误。我希望它停止截断并提供我需要的结果，我假设 -1 值可以实现。我使用的是 2.2.1 版。有任何想法吗？

线程“主”java.lang.RuntimeException 中的异常：作业失败：在 org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:55) 在 org.apache.nutch.fetcher 的 name=fetch, jobid=job_local1185573074_0001。 FetcherJob.run(FetcherJob.java:194) at org.apache.nutch.fetcher.FetcherJob.fetch(FetcherJob.java:219) at org.apache.nutch.fetcher.FetcherJob.run(FetcherJob.java:301) at org .apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 在 org.apache.nutch.fetcher.FetcherJob.main(FetcherJob.java:307)

java nutch nutch2

2019-08-07T14:57:12.687

0 投票

0 回答

61 浏览

http - 使用 curl 进行 nutch RESTapi 调用时出错

我正在使用 curl 对在 ubuntu 实例上运行的 nutch 服务器进行 RESTapi 调用。当我使用 curl 进行以下调用以在我的服务器上创建我的种子文件时

curl -X POST http://**.185.***.**:8081/seed/create -d {"id": "ubuntu", "name": "servertest1", "seedUrls": [{"id":1,"seedList":null,"url":"http://www.******.com/"}]}

我收到以下错误

提前感谢您的帮助，我是 HTTP 调用的新手，所以我很迷茫

http curl nutch nutch2

2020-03-17T04:35:14.653

0 投票

1 回答

91 浏览

solr - Apache Nutch 仅索引 Solr 的文章页面

我已经设置了 Nutch 1.17 来抓取几个网站。像往常一样，高层可以有两种类型的网页。首先是类别页面或主页，不包含任何特定故事的详细信息，但提供多个页面的链接和短文本。其次，有些页面包含详细的完整故事信息，即文章。

现在我的问题是如何确定这是实际的文章页面，而该页面是类别页面。此外，我也有兴趣仅索引故事页面？

我认为 Nutch 默认没有任何东西。我怎样才能实现这种行为？

solr web-crawler nutch web-mining nutch2

2020-08-25T02:25:38.873

0 投票

0 回答

54 浏览

web-crawler - Nutch - 一次又一次地访问几页以找到新的链接

我已经设置 Nutch 1.17 来抓取几千个域，只使用内链抓取。我的主要要求之一是我应该一次又一次地访问主页（让我们说 2 小时后），如果有任何新页面，那么只有那个应该被抓取。

最好的方法应该是什么？我正在考虑一次又一次地爬取运行注入器作业以爬取主页。这是正确的方法吗？同时，我应该如何确保链接也会随着时间的推移而获取。

web-crawler nutch nutch2

2020-08-26T01:57:09.067

问题标签 [nutch2]

Reference