screen-scraping - 识别恶意网络爬虫

Question

我想知道是否有任何技术可以识别收集非法使用信息的网络爬虫。简而言之，数据盗窃是为了创建网站的副本。

理想情况下，该系统会检测到来自未知来源的抓取模式（如果不在 Google 抓取工具的列表中等），并将虚假信息发送给抓取抓取工具。

这就是我迷路的地方 - 如果攻击者随机化间隔和代理，我如何不区分代理和机器从同一网络访问站点？

我正在考虑使用 javascript 和 cookie 支持检查可疑代理。如果柏忌不能始终如一地做到，那么它就是一个坏人。

我还可以做些什么？是否有任何算法，甚至是设计用于对历史数据进行快速动态分析的系统？

score 9 · Accepted Answer

我的解决办法是设个陷阱。在您的网站上放置一些被 robots.txt 禁止访问的页面。在你的页面上创建一个链接，但用 CSS 隐藏它，然后禁止任何访问该页面的人。

这将迫使犯罪者遵守 robots.txt，这意味着您可以将重要信息或服务永久远离他，这将使他的副本克隆无用。

score 2 · Accepted Answer

不要尝试通过 IP 和时间或间隔进行识别——使用您发送给爬虫的数据来跟踪它们。

创建一个已知良好爬虫的白名单——您将正常为他们提供您的内容。其余的，为页面提供一些只有您知道如何查找的独特内容。稍后使用该签名来识别谁在复制您的内容并阻止他们。

score 2 · Accepted Answer

您如何防止某人在一个低工资国家雇用一个人使用浏览器访问您的网站并记录所有信息？设置 robots.txt 文件，投资安全基础设施以防止 DoS 攻击，混淆您的代码（如果可访问，如 javascript），为您的发明申请专利，并为您的网站提供版权。让法律人员担心有人敲诈你。

3 回答 3