0

我正在用 python 编写一个爬虫,它必须提取到此页面中列出的 PDFS 的链接:

http://www.peekyou.com/barack_obama

(向下滚动,有一个带有 pdf 链接的“文档”部分。)

问题是“文档”部分在后台加载,几秒钟后,可能在 javascript 中。而我用来获取 html 页面的函数并没有获取该部分。

为了获取 html,我得到了以下代码:

        ...
        req = urllib2.Request(url)            
        req.add_header('User-agent', random.choice(LISTAGENT))                        
        page = urllib2.urlopen(req)                                        
        if page.info().getmaintype() == "text":
            html = page.read()
            ...

正如我所说,它不会获取该部分。

处理我的问题的正确方法是什么?有我可以使用的 API 吗?谢谢你。

4

0 回答 0