我已经用 Hadoop/Hbase 生态系统配置了 Nutch 2.3.1 来抓取乌尔都语语言内容。对于语言检测,我定制了 fetcher 并在那时查找语言。如果文档没有足够的乌尔都语(字节),那么我故意将其状态设置为已消失,以停止使用空内容增长此边缘。我还必须找到新的乌尔都语域。
我仍然面临选择获取网址的问题。随着时间的推移,inlinks 数据越来越多,其中包括许多不在乌尔都语中的 URL。Nutch 正在选择(生成器)大约 90% 的这些没有乌尔都语内容的 url。由于这个原因,我的资源被浪费了,因为获取的新乌尔都语内容数量非常少。
我如何通知 Nutch 更喜欢那些可能包含乌尔都语内容的域文档?我想我必须以某种方式自定义排名算法。实现我的目标的可能方法是什么?