1

在我们的网站上有几个机器人抓取页面时,我想知道如何标记内容,以便以后搜索它 - 找出抓取的内容在哪里结束?

我在页面上设置了一个独特的 HTML 注释,但这可能不会被删除。

我们页面上的所有链接都是 JavaScript 链接,它们通过 JS 函数进行路由 - 这可能有助于我们的其余内容不被抓取。

有没有办法为此目的标记网站上的链接?

4

1 回答 1

1

如果您在链接中使用特定的 utm 标签,您可以完成此操作。显然,你需要让它变得非常独特。UTM 标签经常用于广告,但它们可以重新利用。以下是对它们的快速解释:http: //www.intownwebdesign.com/google-analytics/google-analytics-utm-link-tagging-explained.html

我认为,仅仅通过寻找链接来跟踪网络爬虫仍然很困难。刮板通常会刮掉标签、链接等。您可能应该首先考虑阻止它们刮掉您的内容的方法,但这是我的偏见。

为了充分披露,我是Distil Networks的联合创始人,所以我们推动人们阻止机器人。

于 2013-10-11T18:41:11.830 回答