我想知道是否有一种简单的机制可以从索引过程中排除非英语页面?例如,dmoz 种子 url 列表包含多种语言的维基百科页面,它们是排除的主要候选者。
有小费吗?
您是否有所有英文页面都遵循的任何 url 模式?例如。en
维基百科在英文网址中有“ ”
. 对于其他语言,它en
在 url中没有
http://gl.wikipedia.org/wiki/Categor%C3%ADa:Wikipedia:Libros
如果您可以定义它,那么可以通过在 $NUTCH_CONF_DIR/regex-urlfilter.txt 文件中添加正则表达式规则来轻松完成,因此包括具有英语模式的页面并丢弃其他页面。