我尝试了两种不同的网络爬虫(Sistrix 和http://ssitemap.com)。两个爬虫都会报告有关重复内容的错误,例如/
和/?katID=12
.
事实证明,如果爬虫调用/projekte/index.php?katID=12
它找到的 url<a href="/">Home</a>
并将其作为链接添加到/?katID=12
. 看起来来自 url 的参数?katID=12
被添加到页面上没有参数的每个链接。
如果我使用浏览器或 wget,我会看到我/
想要的简单 html 链接。
我做错什么了吗?服务器配置?
这是爬虫中的错误还是功能?