1

我正在尝试使用 python 的 imdbpy 模块下载近 25 000 部电影的情节。为了加快速度,我使用了 Multiprocessing 模块中的 Pool 函数。但是,在近 100 个请求之后,出现 503 错误并显示以下消息:服务暂时不可用。10-15 分钟后,我可以再次处理,但在大约 20 次请求后,同样的错误再次发生。

我知道这可能是来自 api 的一个简单块,以防止过多的调用,但是我在网络上找不到有关每个时间单位的最大请求数的任何信息。

您知道如何在不关机的情况下处理这么多电话吗?此外,你知道我在哪里可以找到 imdb api 的文档吗?

最好的

4

1 回答 1

3

请不要这样做。

IMDb 的服务条款禁止抓取,并且 IMDbPY 从未打算用于大规模抓取网站:事实上,它明确设计为一次获取​​一部电影。

理论上 IMDbPY 可以管理他们分发的纯文本数据文件,但不幸的是他们最近改变了数据的格式和内容。

IMDb 没有我知道的 API;如果您必须管理他们如此大量的数据,则必须获得许可证

请考虑使用http://www.omdbapi.com/

于 2017-08-17T21:29:10.850 回答