0

我正在使用 Searcharoo.NET 来抓取具有特定语言的网站“testsite.com/en”。有“testsite.com/fr”、“testsite.com/us”等。稍后我想为每个站点上的页面编制索引,以便可以进行搜索,但我希望将不同的语言分开。

问题在于,当 searcharoo 开始在 testsite.com/en 上爬行时,它还会索引来自其他语言的页面,例如 testsite.com/fr。有没有办法防止这种情况发生?我认为我可以将爬虫限制为仅向前搜索或说在某些页面上停止,但没有从 searcharoo 找到任何关于该主题的文档。

非常感谢,谢谢!

4

1 回答 1

1

请看下面一个人写的博客:

 http://draganbl.blogspot.com/2011/04/how-do-you-use-searcharoo-library-to.html

似乎您不能随心所欲,但可能会为每种语言设置一个“爬虫/蜘蛛”。我的回答似乎很模糊,但也许它可以给你一个方向。

于 2013-03-20T06:27:58.417 回答