1

我将如何为 Google chrome 扩展网站编写爬虫?https://chrome.google.com/webstore/category/extensions

我正在对 chrome 扩展进行一些安全研究。每个类别大约有 100 个扩展,我现在遇到的问题是编写一个爬虫来至少抓取 UID。该网站似乎由 javascript 更新。如果我要获取 html,我将一无所获,因为该站点似乎在稍后阶段加载页面的其余部分。换句话说,我需要的核心内容(即带有所有扩展元素的 DOM)似乎是在我使用 python 获取 HTML 之后加载的。有任何想法吗?

4

1 回答 1

2

是的,网页不包含数据 - 它是单独下载的。使用这样的 URL:

https://chrome.google.com/webstore/ajax/item?pv=1389738107&count=100&category=app/7-productivity

请注意,这必须是一个 POST 请求(没有任何 POST 数据),出于安全原因,其他请求将被拒绝。您必须")]}'"在文件的开头和"[]\n"其他各个地方删除 - 然后您应该获得可以通过json.loads. 数据不是很结构化,但应该足以爬行。

请注意,该pv参数看起来可能很快会更改(此 Unix 时间对应于四天前的日期),您可以使用 Chrome 开发者工具的 Network 选项卡查看当前请求参数。该category参数是类别的标识符 - 它是https://chrome.google.com/webstore/category/Web Store 链接中的 URL 部分。

于 2012-04-23T12:22:00.950 回答