4

我正在使用 Selenium 进行网络爬网,并且我想在 Selenium 模拟单击​​假链接后获取由 JavaScript 编写的元素(例如链接)。

我尝试了 get_html_source(),但它不包含 JavaScript 编写的内容。

我写的代码:

    def test_comment_url_fetch(self):
        sel = self.selenium 
        sel.open("/rmrb")
        url = sel.get_location()
        #print url
        if url.startswith('http://login'):
            sel.open("/rmrb")
        i = 1
        while True:
            try:
                if i == 1:
                    sel.click("//div[@class='WB_feed_type SW_fun S_line2']/div/div/div[3]/div/a[4]") 
                    print "click"
                else:
                    XPath = "//div[@class='WB_feed_type SW_fun S_line2'][%d]/div/div/div[3]/div/a[4]"%i
                    sel.click(XPath)
                    print "click"
            except Exception, e:
                print e
                break
            i += 1
        html = sel.get_html_source()
        html_file = open("tmp\\foo.html", 'w')
        html_file.write(html.encode('utf-8'))
        html_file.close()

我使用 while-loop 来单击一系列触发 js-actions 以显示额外内容的虚假链接,而这些内容正是我想要的。但是 sel.get_html_source() 没有给出我想要的。

有人可以帮忙吗?非常感谢。

4

3 回答 3

6

因为我通常对获取的节点进行后处理,所以我直接在浏览器中运行 JavaScript,使用execute_script. 例如要获取所有 a-tags:

js_code = "return document.getElementsByTagName('a')"
your_elements = sel.execute_script(js_code)

编辑:execute_script并且get_eval是等效的,除了get_eval执行隐式返回,execute_script必须明确说明。

于 2013-04-18T03:38:49.733 回答
1

你不能在你的 selenium 环境中调用浏览器对象吗?例如:

self.browser.find_elements_by_tag_name("div")

应该返回一个 div 数组。您还可以按类、id 等查找。

编辑下面是创建“浏览器”对象的代码。

from selenium import webdriver #The browser object
self.browser = webdriver.Firefox() #I Use firefox, but can do chrome, IE, and safari i believe

然后你应该可以用find_elements_by_tag_name.

于 2013-04-18T03:23:21.803 回答
0

您需要使用可以执行 Javascript 的浏览器引擎,例如PhantomJS。Javascript 的更改仅对可以执行 Javascript 并为要触发的事件提供 DOM/Runtime 的客户端可见。

也非常接近:Executing Javascript from Python

于 2013-04-18T02:45:48.980 回答