最近我在这里一直在思考屏幕抓取以及它可能是一项什么样的任务。所以我提出以下问题。
作为站点开发人员,您是否会公开简单的 API 以防止用户抓取屏幕,例如 JSON 结果?
然后,这些结果可以实现缓存,并且它们的流量比可能下载的大量标记要小得多。
我不是在看预防,而是在阻止刮擦。
抓取带宽样本
((users * (% / 100)) * ((freq * 60) * 24)) * 文件大小
- 用户:200,000
- 使用实用程序的用户百分比:5
- 文件大小:1kb
- 频率:1分钟
公式:
((用户 * (% / 100)) * ((freq * 60) * 24)) * 文件大小
10,000 * 1440 * 1
14400000kb 或 13.73291015625gb
假设您的 JSON 结果是 200 字节,即现在 (10,000 * 1440 * 0.2) 或每天 2.74658203125gb。
这相当于每天大约 11GB 的流量变化。
我的 Stack Overflow 配置文件是 96k 以供参考。
这个问题的原因提示要求从用户配置文件中获取 JSON 结果:
http ://stackoverflow.uservoice.com/pages/general/suggestions/101342-add-json-for-user-information
我想了解其他开发人员是否会公开此类 API,以及是否值得您花时间提供这些 API 以减少带宽。