2

我正在尝试制作一个刮板,它将通过一堆链接,将指南导出为 PDF,并循环浏览父文件夹中的所有指南。它可以正常工作,但是当我尝试向后退时,它会抛出陈旧的异常,即使我确保刷新代码中的元素或刷新页面也是如此。

from selenium import webdriver
import time, bs4

browser = webdriver.Firefox()
browser.get('MYURL')
loginElem = browser.find_element_by_id('email')
loginElem.send_keys('LOGIN')
pwdElem = browser.find_element_by_id('password')
pwdElem.send_keys('PASSWORD')
pwdElem.submit()
time.sleep(3)
category = browser.find_elements_by_class_name('title')
for i in category:
    i.click()
    time.sleep(3)
    guide = browser.find_elements_by_class_name('cell')
    for j in guide:
        j.click()
        time.sleep(3)
        soup = bs4.BeautifulSoup(browser.page_source, features="html.parser")
        guidetitle = soup.find_all(id='guide-intro-title')
        print(guidetitle)
        browser.find_element_by_link_text('Options').click()
        time.sleep(0.5)
        browser.find_element_by_partial_link_text('Download PDF').click()
        browser.find_element_by_id('download').click()
        browser.execute_script("window.history.go(-2)")
        print("went back")
        time.sleep(5)
        print("waited")
        guide = browser.find_elements_by_class_name('thumb')
        print("refreshed elements")
    print("made it to outer loop")

如果我都使用脚本将浏览器移回,就会发生这种情况,或者使用 driver.back() 方法。我可以看到它返回到子目录,然后等待并刷新元素。但是,它似乎无法加载新元素以进入下一个指南。我在 SO 上发现了一个类似的问题,但有人只是提供了针对该问题量身定制的代码而不是解释,所以我仍然感到困惑。

我也知道使用 waitdriver,但我现在只使用睡眠,因为我不完全了解 EC 等待条件。无论如何,增加睡眠时间并不能解决这个问题。

4

1 回答 1

1

由于 DOM 中的元素 UUID 更改,页面刷新时会发生 过时元素引用异常。如何避免:总是尝试在交互之前搜索元素。

在您的代码中,您搜索单元格,找到它们并将它们存储在guide. 所以现在,guide有一个硒 UUID 列表。但是,您正在循环遍历列表,并且在每次刷新时(我相信当您返回时会发生这种情况),单元格的 UUID 会发生变化,因此您存储的旧 UUID 不再附加到 DOM。当尝试与它们交互时,Selenium 在 DOM 中找不到它们并抛出此异常。

guide每次都尝试重新查找元素,而不是遍历您的方式,例如:

guide = browser.find_elements_by_class_name('cell')
for j in range(len(guide)):
    browser.find_elements_by_class_name('cell')[j].click()

请注意,看起来category可能有类似的问题,因此请尝试应用此解决方案category

希望这可以帮助。是一个类似的问题和解决方案。

于 2020-03-21T07:00:13.573 回答