python - 获取动态加载的html？Python

翻译自：https://stackoverflow.com/questions/16674846 2013-05-21T16:22:45.290

212 次

我正在用 python 编写一个爬虫，它必须提取到此页面中列出的 PDFS 的链接：

http://www.peekyou.com/barack_obama

（向下滚动，有一个带有 pdf 链接的“文档”部分。）

问题是“文档”部分在后台加载，几秒钟后，可能在 javascript 中。而我用来获取 html 页面的函数并没有获取该部分。

为了获取 html，我得到了以下代码：

        ...
        req = urllib2.Request(url)            
        req.add_header('User-agent', random.choice(LISTAGENT))                        
        page = urllib2.urlopen(req)                                        
        if page.info().getmaintype() == "text":
            html = page.read()
            ...

正如我所说，它不会获取该部分。

处理我的问题的正确方法是什么？有我可以使用的 API 吗？谢谢你。

python - 获取动态加载的html？Python

0 回答 0

Related

Reference