1

我想知道是否有一种简单的机制可以从索引过程中排除非英语页面?例如,dmoz 种子 url 列表包含多种语言的维基百科页面,它们是排除的主要候选者。

有小费吗?

4

1 回答 1

1

您是否有所有英文页面都遵循的任何 url 模式?例如。en维基百科在英文网址中有“ ”

http://en.wikipedia.org/wiki/Category:Wikipedia_books

. 对于其他语言,它en在 url中没有

http://gl.wikipedia.org/wiki/Categor%C3%ADa:Wikipedia:Libros

如果您可以定义它,那么可以通过在 $NUTCH_CONF_DIR/regex-urlfilter.txt 文件中添加正则表达式规则来轻松完成,因此包括具有英语模式的页面并丢弃其他页面。

于 2012-04-23T15:22:29.517 回答