php - 爬虫将参数从 url 添加到链接

Question

我尝试了两种不同的网络爬虫（Sistrix 和http://ssitemap.com）。两个爬虫都会报告有关重复内容的错误，例如/和/?katID=12.

事实证明，如果爬虫调用/projekte/index.php?katID=12它找到的 url<a href="/">Home</a>并将其作为链接添加到/?katID=12. 看起来来自 url 的参数?katID=12被添加到页面上没有参数的每个链接。

如果我使用浏览器或 wget，我会看到我/想要的简单 html 链接。

我做错什么了吗？服务器配置？

这是爬虫中的错误还是功能？

score 0 · Accepted Answer

我添加<link rel="canonical" href="...">到每个页面以帮助爬虫识别相同的页面。

1 回答 1