我的任务是抓取所有普利策奖得主,我发现这个页面有我想要的一切:https ://www.pulitzer.org/prize-winners-by-year/2018 。
但是我遇到了以下问题,
问题一:如何爬取动态页面?我使用 python/urllib2.urlopen 来获取页面的内容,但是这个动态页面不会从中返回真实的内容。
问题 2:然后我从 devtool 中找到了一个 API URL:https://www.pulitzer.org/cache/api/1/winners/year/166/raw.json。但是当我从 urllib2.urlopen 发送一个 GET 请求时,我总是得到空值。它是如何发生的?或者我该如何处理?
如果这对你来说太天真了,请说出一些单词,以便我可以从谷歌中学习。
提前致谢!