我尝试了两种不同的网络爬虫(Sistrix 和http://ssitemap.com)。两个爬虫都会报告有关重复内容的错误,例如/和/?katID=12.
事实证明,如果爬虫调用/projekte/index.php?katID=12它找到的 url<a href="/">Home</a>并将其作为链接添加到/?katID=12. 看起来来自 url 的参数?katID=12被添加到页面上没有参数的每个链接。
如果我使用浏览器或 wget,我会看到我/想要的简单 html 链接。
我做错什么了吗?服务器配置?
这是爬虫中的错误还是功能?