我想知道是否有任何技术可以识别收集非法使用信息的网络爬虫。简而言之,数据盗窃是为了创建网站的副本。
理想情况下,该系统会检测到来自未知来源的抓取模式(如果不在 Google 抓取工具的列表中等),并将虚假信息发送给抓取抓取工具。
- 如果作为防御者,我检测到一个未知爬虫定期访问该站点,则攻击者将随机化这些时间间隔。
- 如果作为防御者,我检测到相同的代理/IP,则攻击者将随机分配代理。
这就是我迷路的地方 - 如果攻击者随机化间隔和代理,我如何不区分代理和机器从同一网络访问站点?
我正在考虑使用 javascript 和 cookie 支持检查可疑代理。如果柏忌不能始终如一地做到,那么它就是一个坏人。
我还可以做些什么?是否有任何算法,甚至是设计用于对历史数据进行快速动态分析的系统?