10

我正在使用 Selenium 2(2.33 版 Python 绑定,Firefox 驱动程序)编写一个通用的网络爬虫。它应该采用任意URL,加载页面并报告所有出站链接。因为 URL 是任意的,所以我无法对页面的内容做出任何假设,因此通常的建议(等待特定元素出现)是不适用的。

我有应该轮询的代码,document.readyState直到它达到“完成”或 30 秒超时已经过去,然后继续:

def readystate_complete(d):
    # AFAICT Selenium offers no better way to wait for the document to be loaded,
    # if one is in ignorance of its contents.
    return d.execute_script("return document.readyState") == "complete"

def load_page(driver, url):
    try:
        driver.get(url)
        WebDriverWait(driver, 30).until(readystate_complete)
    except WebDriverException:
        pass

    links = []
    try:
        for elt in driver.find_elements_by_xpath("//a[@href]"):
            try: links.append(elt.get_attribute("href"))
            except WebDriverException: pass
    except WebDriverException: pass
    return links

这种工作,但在大约五分之一的页面上,.until电话永远挂起。发生这种情况时,通常浏览器实际上还没有完成页面加载(“颤动”仍在旋转),但可能会经过数十分钟并且不会触发超时。但有时页面确实似乎已完全加载并且脚本仍然没有继续。

是什么赋予了?如何使超时可靠地工作?有没有更好的方法来请求等待页面加载(如果不能对内容做出任何假设)?

注意: 强迫性的捕捉和忽略WebDriverException已被证明是必要的,以确保它从页面中提取尽可能多的链接,无论页面内的 JavaScript 是否正在使用 DOM 做有趣的事情(例如,我曾经得到“陈旧的元素" 提取 HREF 属性的循环中的错误)。

注意:在这个网站和其他地方都有很多关于这个问题的变化,但他们都有一个微妙但关键的区别,这使得答案(如果有的话)对我来说毫无用处,或者我已经尝试了这些建议和他们不工作。 准确回答我提出的问题。

4

5 回答 5

5

我有类似的情况,因为我使用 Selenium 为一个相当知名的网站服务编写了屏幕截图系统,并且遇到了同样的困境:我对正在加载的页面一无所知。

在与一些 Selenium 开发人员交谈后,答案是各种 WebDriver 实现(例如 Firefox 驱动程序与 IEDriver)对何时考虑加载页面或不考虑 WebDriver 返回控制权做出不同的选择。

如果您深入研究 Selenium 代码,您可以找到尝试做出最佳选择的点,但是由于有许多事情可能导致正在查找的状态失败,例如多个帧中一个未完成的帧及时,有司机明明就是不回的情况。

有人告诉我,“这是一个开源项目”,它可能不会/无法针对所有可能的情况进行纠正,但我可以在适用的情况下进行修复并提交补丁。

从长远来看,这对我来说有点多,所以和你一样,我创建了自己的超时过程。由于我使用 Java,我创建了一个新线程,在达到超时时,它会尝试做几件事来让 WebDriver 返回,即使有时只是按下某些键来让浏览器响应也有效。如果它没有返回,那么我会终止浏览器并再次尝试。

再次启动驱动程序已经为我们处理了大多数情况,好像浏览器的第二次加载允许它处于更稳定的状态(请注意,我们是从 VM 启动的,并且浏览器不断想要检查更新并运行某些例程它最近没有推出)。

另一部分是我们首先启动一个已知的 url 并确认浏览器的某些方面,并且我们实际上能够在继续之前与它进行交互。通过这些步骤,失败率非常低,大约 3%,在所有浏览器/版本/操作系统(FF、IE、CHROME、Safari、Opera、iOS、Android 等)上进行了 1000 次测试

最后但同样重要的是,对于您的情况,听起来您只需要捕获页面上的链接,而不需要完全的浏览器自动化。我可能会采取其他方法,即 cURL 和 linux 工具。

于 2014-01-13T22:50:11.130 回答
4
  1. “推荐”(但仍然很难看)解决方案可能是使用显式等待

    from selenium.webdriver.common.by import By
    from selenium.webdriver.support.ui import WebDriverWait 
    from selenium.webdriver.support import expected_conditions
    
    old_value = browser.find_element_by_id('thing-on-old-page').text
    browser.find_element_by_link_text('my link').click()
    WebDriverWait(browser, 3).until(
        expected_conditions.text_to_be_present_in_element(
            (By.ID, 'thing-on-new-page'),
            'expected new text'
        )
    )
    
  2. 天真的尝试是这样的:

    def wait_for(condition_function):
        start_time = time.time()
        while time.time() < start_time + 3:
            if condition_function():
                return True
            else:
                time.sleep(0.1)
        raise Exception(
            'Timeout waiting for {}'.format(condition_function.__name__)
        )
    
    
    def click_through_to_new_page(link_text):
        browser.find_element_by_link_text('my link').click()
    
        def page_has_loaded():
            page_state = browser.execute_script(
                'return document.readyState;'
            ) 
            return page_state == 'complete'
    
        wait_for(page_has_loaded)
    
  3. 另一个更好的是(感谢@ThomasMarks):

    def click_through_to_new_page(link_text):
        link = browser.find_element_by_link_text('my link')
        link.click()
    
        def link_has_gone_stale():
            try:
                # poll the link with an arbitrary call
                link.find_elements_by_id('doesnt-matter') 
                return False
            except StaleElementReferenceException:
                return True
    
        wait_for(link_has_gone_stale)
    
  4. 最后一个示例包括如下比较页面 id(这可能是防弹的):

    class wait_for_page_load(object):
    
        def __init__(self, browser):
            self.browser = browser
    
        def __enter__(self):
            self.old_page = self.browser.find_element_by_tag_name('html')
    
        def page_has_loaded(self):
            new_page = self.browser.find_element_by_tag_name('html')
            return new_page.id != self.old_page.id
    
        def __exit__(self, *_):
            wait_for(self.page_has_loaded)
    

    现在我们可以这样做:

    with wait_for_page_load(browser):
        browser.find_element_by_link_text('my link').click()
    

以上代码示例来自Harry 的博客

于 2015-05-18T09:46:30.183 回答
2

据我所知,您readystate_complete没有做任何事情,因为 driver.get() 已经在检查这种情况。无论如何,我已经看到它在很多情况下都不起作用。您可以尝试的一件事是通过代理路由您的流量,并将其用于 ping 任何网络流量。即browsermob有 wait_for_traffic_to_stop 方法:

def wait_for_traffic_to_stop(self, quiet_period, timeout):
"""
Waits for the network to be quiet
:Args:
- quiet_period - number of seconds the network needs to be quiet for
- timeout - max number of seconds to wait
"""
    r = requests.put('%s/proxy/%s/wait' % (self.host, self.port),
        {'quietPeriodInMs': quiet_period, 'timeoutInMs': timeout})
    return r.status_code
于 2014-01-14T00:06:25.423 回答
0

如果页面仍在无限期加载,我猜 readyState 永远不会达到“完成”。如果您使用的是 Firefox,您可以通过调用强制页面加载停止window.stop()

try:
    driver.get(url)
    WebDriverWait(driver, 30).until(readystate_complete)
except TimeoutException:
    d.execute_script("window.stop();")
于 2013-09-15T18:04:37.130 回答
0

Here is solution proposed by Tommy Beadle (by using staleness approach):

import contextlib
from selenium.webdriver import Remote
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support.expected_conditions import staleness_of

class MyRemote(Remote):
    @contextlib.contextmanager
    def wait_for_page_load(self, timeout=30):
        old_page = self.find_element_by_tag_name('html')
        yield
        WebDriverWait(self, timeout).until(staleness_of(old_page))
于 2015-05-18T09:42:51.320 回答