nutch - 如何爬取英文网站，避免爬取其他语言？

Question

嗨，我只需要抓取他们的语言是英语的网站。我知道 nutch 可以通过语言检测器之类的插件检测网站的语言，但我需要防止 nutch 抓取非英语网站。虽然我知道我们需要抓取一个页面来理解我想在我们可以检测到语言的第一时间离开网站的语言。你能告诉我是否可能吗？例如，如果一个站点的两个或三个页面被获取并且它们不是英语 nutch 应该离开该站点并放弃这些页面和它们的所有 url。谢谢你的帮助。

score 2 · Accepted Answer

如果您快速查看 HTTP 请求参数 (http://en.wikipedia.org/wiki/List_of_HTTP_header_fields)，您可以询问内容语言，您会得到如下答案：“Content-Language: en”。

您不需要执行 GET 请求（并下载整个页面），您可以在 HEAD 请求中请求此参数（以便仅下载标头）。

关于“例如，如果一个网站的两个或三个页面被提取并且它们不是英语 nutch 应该离开该站点并放弃这些页面和它们的所有 url。” 一个站点可以是多语言的。因此，您可以获得西班牙语（或其他）的前 3 页，然后您将离开该站点，尽管有些页面是英语的。

nutch - 如何爬取英文网站，避免爬取其他语言？

1 回答 1

Related

Reference