在过去一年左右的时间里,我创建了许多脚本来从 Google Play 上抓取 Android 应用评论。在过去,这通过模仿 Google Play 界面以使用必要的参数调用https://play.google.com/store/getreviews并解析 HTML 结果来正常工作。
最近对 Google Play 界面的更新改变了 HTML 结构,但似乎也实现了某种防止抓取的保护。现在有一个“令牌”参数发生了变化,可能是某种会话 ID,我无法生成它,因为我不确定它是什么种子。此外,我发现它似乎阻止了多次调用不符合接口的请求客户端,因为在调用不成功后,我什至无法在任何浏览器中加载 Google Play 接口。一段时间后,这似乎超时了。不确定这一点,但这是我从所见所闻得出的结论。
有人发现了这个类似的问题,并找到了解决方法吗?
谢谢