我正在用 python 编写一个爬虫,它必须提取到此页面中列出的 PDFS 的链接:
http://www.peekyou.com/barack_obama
(向下滚动,有一个带有 pdf 链接的“文档”部分。)
问题是“文档”部分在后台加载,几秒钟后,可能在 javascript 中。而我用来获取 html 页面的函数并没有获取该部分。
为了获取 html,我得到了以下代码:
...
req = urllib2.Request(url)
req.add_header('User-agent', random.choice(LISTAGENT))
page = urllib2.urlopen(req)
if page.info().getmaintype() == "text":
html = page.read()
...
正如我所说,它不会获取该部分。
处理我的问题的正确方法是什么?有我可以使用的 API 吗?谢谢你。