0

我正在使用本主题中的代码尝试使用无头浏览器获取网站的 HTML。这是我的完整代码:

from selenium import webdriver
from selenium.webdriver.firefox.options import Options
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

binary = r'C:\Program Files\Mozilla Firefox\firefox.exe'
options = Options()
options.add_argument("-headless")
options.add_argument("headless")
options.add_argument("--headless")

options.headless = True
options.binary = binary
cap = DesiredCapabilities().FIREFOX
driver = webdriver.Firefox(options=options, executable_path="C:\\Users\\Aviv\\Downloads\\geckodriverv0.26.0-win64\\geckodriver.exe")#,capabilities=cap)
driver.get("https://coronaupdates.health.gov.il/corona-updates/grid/public-transport")
print(driver.find_elements_by_class_name("mat-row"))

当我让代码运行并打印时,结果是一个空列表: [] 但是如果我使用 Pycharm 评估器,我会得到一个包含 20 个元素的列表。

在此处输入图像描述

看起来代码中的求值器和实际命令执行的不同,或者分配不顺利。

我将不胜感激。谢谢!

4

1 回答 1

1

我怀疑它会打印[],因为所需的类元素未加载到 中,DOM并且当您使用评估器时,它可能会等到完整DOM更新完成。这就是在后一种情况下它返回与给定类匹配的元素的方式。

尝试在脚本中添加睡眠呼叫

import time

options.headless = True
options.binary = binary
cap = DesiredCapabilities().FIREFOX
driver = webdriver.Firefox(options=options, executable_path="C:\\Users\\Aviv\\Downloads\\geckodriverv0.26.0-win64\\geckodriver.exe")#,capabilities=cap)
driver.get("https://coronaupdates.health.gov.il/corona-updates/grid/public-transport")

time.sleep(5)   # Delays for 5 seconds.
print(driver.find_elements_by_class_name("mat-row"))

还要在无头和非无头模式下使用显式与隐式等待调用进行评估。

于 2020-06-12T23:40:26.230 回答