我正在尝试制作一个刮板,它将通过一堆链接,将指南导出为 PDF,并循环浏览父文件夹中的所有指南。它可以正常工作,但是当我尝试向后退时,它会抛出陈旧的异常,即使我确保刷新代码中的元素或刷新页面也是如此。
from selenium import webdriver
import time, bs4
browser = webdriver.Firefox()
browser.get('MYURL')
loginElem = browser.find_element_by_id('email')
loginElem.send_keys('LOGIN')
pwdElem = browser.find_element_by_id('password')
pwdElem.send_keys('PASSWORD')
pwdElem.submit()
time.sleep(3)
category = browser.find_elements_by_class_name('title')
for i in category:
i.click()
time.sleep(3)
guide = browser.find_elements_by_class_name('cell')
for j in guide:
j.click()
time.sleep(3)
soup = bs4.BeautifulSoup(browser.page_source, features="html.parser")
guidetitle = soup.find_all(id='guide-intro-title')
print(guidetitle)
browser.find_element_by_link_text('Options').click()
time.sleep(0.5)
browser.find_element_by_partial_link_text('Download PDF').click()
browser.find_element_by_id('download').click()
browser.execute_script("window.history.go(-2)")
print("went back")
time.sleep(5)
print("waited")
guide = browser.find_elements_by_class_name('thumb')
print("refreshed elements")
print("made it to outer loop")
如果我都使用脚本将浏览器移回,就会发生这种情况,或者使用 driver.back() 方法。我可以看到它返回到子目录,然后等待并刷新元素。但是,它似乎无法加载新元素以进入下一个指南。我在 SO 上发现了一个类似的问题,但有人只是提供了针对该问题量身定制的代码而不是解释,所以我仍然感到困惑。
我也知道使用 waitdriver,但我现在只使用睡眠,因为我不完全了解 EC 等待条件。无论如何,增加睡眠时间并不能解决这个问题。