我正在使用 Searcharoo.NET 来抓取具有特定语言的网站“testsite.com/en”。有“testsite.com/fr”、“testsite.com/us”等。稍后我想为每个站点上的页面编制索引,以便可以进行搜索,但我希望将不同的语言分开。
问题在于,当 searcharoo 开始在 testsite.com/en 上爬行时,它还会索引来自其他语言的页面,例如 testsite.com/fr。有没有办法防止这种情况发生?我认为我可以将爬虫限制为仅向前搜索或说在某些页面上停止,但没有从 searcharoo 找到任何关于该主题的文档。
非常感谢,谢谢!