web-crawler - 针对特定语言内容的 Apache Nutch 排名算法

Question

我已经用 Hadoop/Hbase 生态系统配置了 Nutch 2.3.1 来抓取乌尔都语语言内容。对于语言检测，我定制了 fetcher 并在那时查找语言。如果文档没有足够的乌尔都语（字节），那么我故意将其状态设置为已消失，以停止使用空内容增长此边缘。我还必须找到新的乌尔都语域。

我仍然面临选择获取网址的问题。随着时间的推移，inlinks 数据越来越多，其中包括许多不在乌尔都语中的 URL。Nutch 正在选择（生成器）大约 90% 的这些没有乌尔都语内容的 url。由于这个原因，我的资源被浪费了，因为获取的新乌尔都语内容数量非常少。

我如何通知 Nutch 更喜欢那些可能包含乌尔都语内容的域文档？我想我必须以某种方式自定义排名算法。实现我的目标的可能方法是什么？

score 1 · Accepted Answer

我认为最简单的解决方案是为这些不重要的 URL 分配一个非常低的分数。并且，也许为生成器设置一个最低分数阈值（https://github.com/apache/nutch/blob/master/src/java/org/apache/nutch/crawl/Generator.java#L93）。

当然，所有这些都伴随着某些问题，可能是在某些时候你用完了 URL 来获取。因为，要么生成器没有找到任何合适的候选者（分数阈值，或者没有更多的乌尔都语 URL 可获取），要么已经获取了所有 URL（您发现的）。

通常为这些边缘情况进行计划是一个好主意。

1 回答 1