我们需要每天为所有 iOS 应用下载元数据。我们计划通过爬取 iTunes 网站和使用 iTunes 搜索 API 来提取信息。由于有 700K+ 应用程序,我们需要一种有效的方法来做到这一点。
一种方法是在 EC2 上设置一堆脚本并并行运行它们。在我们踏上这条道路之前,是否有像 80legs 这样的服务被人们用来完成类似的任务?本质上,我们想要一些东西来帮助我们非常快速地抓取数十万个页面(或进行一堆 API 调用)。
我们需要每天为所有 iOS 应用下载元数据。我们计划通过爬取 iTunes 网站和使用 iTunes 搜索 API 来提取信息。由于有 700K+ 应用程序,我们需要一种有效的方法来做到这一点。
一种方法是在 EC2 上设置一堆脚本并并行运行它们。在我们踏上这条道路之前,是否有像 80legs 这样的服务被人们用来完成类似的任务?本质上,我们想要一些东西来帮助我们非常快速地抓取数十万个页面(或进行一堆 API 调用)。
您可能需要查看 Apple 的Enterprise Partner Feed (EPF)。它可能比获得一堆 EC2 机器或建立爬行基础设施来抓取数据要便宜得多。从 EFP 描述本身:
企业合作伙伴源是来自 iTunes 和 App Store 的完整元数据集的数据源。附属合作伙伴可以将 iTunes 和 App Store 目录的各个方面完全整合到网站或应用程序中。
EPF 有两种进给模式
iTunes 以两种模式生成 EPF 数据:
全模式
增量模式完整的导出文件每周生成一次,其中包含生成当天的 iTunes 元数据的完整快照。增量导出每天生成并包含自上次完全导出以来添加或修改的记录。增量导出相对于它们所基于的完整导出进行定位。
显然,当您想要填充数据时,您将使用完整模式,然后您将使用增量模式进行每日更新。
祝你好运。