我经营一个网站,以图表/表格格式提供各种数据供人们阅读。最近我注意到来自 Google Docs 的网站请求有所增加。查看 IP 和用户代理,它似乎确实来自 Google 服务器 -此处的示例 IP 查找。
每天的点击数在 2,500 到 10,000 个请求之间。
我假设有人创建了一个或多个从我的网站上抓取数据的 Google 表格(可能使用IMPORTHTML功能或类似功能)。我宁愿这没有发生(因为我不知道数据是否被正确归因)。
是否有首选方法来阻止 Google 支持/批准的这种流量?
我宁愿不基于 IP 地址进行阻止,因为阻止 Google 服务器感觉不对,可能会导致未来出现问题或 IP 可能会更改。目前我基于包含GoogleDocs
or的用户代理阻止(返回 403 状态) docs.google.com
。
目前流量主要来自 66.249.89.221 和 66.249.89.223,始终使用用户代理Mozilla/5.0 (compatible; GoogleDocs; apps-spreadsheets; http://docs.google.com)
作为第二个问题:有没有办法追踪文档或其帐户所有者?我可以访问他们正在访问的 URL,但由于请求似乎是通过 Google Docs 服务器代理的(HTTP 日志中没有Referer、Cookie 或其他此类数据),因此几乎没有其他操作可做。
谢谢你。