2

我尝试了两种不同的网络爬虫(Sistrix 和http://ssitemap.com)。两个爬虫都会报告有关重复内容的错误,例如//?katID=12.

事实证明,如果爬虫调用/projekte/index.php?katID=12它找到的 url<a href="/">Home</a>并将其作为链接添加到/?katID=12. 看起来来自 url 的参数?katID=12被添加到页面上没有参数的每个链接。

如果我使用浏览器或 wget,我会看到我/想要的简单 html 链接。

我做错什么了吗?服务器配置?

这是爬虫中的错误还是功能?

4

1 回答 1

0

我添加<link rel="canonical" href="...">到每个页面以帮助爬虫识别相同的页面。

另请参阅http://support.google.com/webmasters/bin/answer.py?hl=en&answer=139394

于 2013-04-15T07:48:42.240 回答