0

我正在尝试抓取一个网站,我需要获取一个嵌入元素,但是因为我使用的是 Python 和 lxml.html,所以该网站准确地断定我没有安装 Flash,而不是向我展示嵌入元素,它给我看这个:

<div>
    <font>
        <u>
            <b>
                <a href="http://get.adobe.com/flashplayer/">
                ATTENTION:<br>This video will not play. You currently do not have Adobe Flash installed on this computer. Please click here to download it (it's free!)
                </a>
            </b>
        </u>
    </font>
</div>

显然这是一个问题,所以我想知道是否有可能为了检索正确的元素而欺骗浏览器认为你安装了 Flash,即使你没有安装?

我希望有人能帮帮忙!

4

2 回答 2

0

我相信以下博客文章很好地回答了您的问题。作者也有同样的需求,使用 Python 抓取 Flash 内容。同样的问题出现了。他意识到他只需要实例化一个浏览器(即使只是一个甚至不显示在屏幕上的内存中的浏览器),然后抓取它的输出。我认为这可能是满足您需要的成功方法,并且他使您易于理解。

http://blog.motane.lu/2009/06/18/pywebkitgtk-execute-javascript-from-python/

于 2012-07-04T00:23:13.570 回答
0

要获取 JavaScript 生成的内容,您还可以尝试 Selenium,例如

于 2012-07-04T00:26:38.593 回答