11

我正在尝试使用 Python 来抓取一个网站,该网站通过使用嵌入的 javascript 文件来动态加载它的 HTML,这些文件将数据作为响应呈现到 HTML 中。因此,如果我单独使用 BeautifulSoup,我将无法检索我需要的数据,因为我的程序会在 Javascript 加载数据之前抓取它。因此,我将 selenium 库集成到我的代码中,以使我的程序等到找到某个元素后再抓取网站。

我最初是这样做的:

element = WebDriverWait(driver,100).until(EC.presence_of_element_located((By.ID, "tabla_evolucion")))

但是我想通过执行以下操作来指定一个类:

element = WebDriverWait(driver,100).until(EC.presence_of_element_located((By.class, "ng-binding ng-scope")))  

这是我的其余代码:

driver_path = 'C:/webDrivers/chromedriver.exe'
driver = webdriver.Chrome(executable_path=driver_path)
driver.header_overrides = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'}
url = "myurlthatIamscraping.com" 
response = driver.get(url)
html = driver.page_source
characters = len(html)
element = WebDriverWait(driver,100).until(EC.presence_of_element_located((By.class, "ng-binding ng-scope")))

print(html)
print(characters)
time.sleep(10)
driver.quit()

它对我不起作用,我在任何地方都找不到正确的语法。

4

4 回答 4

10

相关的 HTML 将帮助我们构建更规范的答案。但是,从您的第一行代码开始:

element = WebDriverWait(driver,100).until(EC.presence_of_element_located(
  (By.ID, "tabla_evolucion")))

在第二行代码中几乎是合法的:

element = WebDriverWait(driver,100).until(EC.presence_of_element_located(
  (By.class, "ng-binding ng-scope")))

将引发错误:

消息:无效选择器:不允许复合类名

因为你不能通过多个类By.class

您可以在Invalid selector: Compound class names not allowed using find_element_by_class_name with Webdriver and Python中找到详细讨论


解决方案

您需要注意以下几点:

  • 在对您的用例没有任何可见性的情况下,在功能上将 WebDriverWaitEC关联起来,仅确认DOM Treepresence_of_element_located()中元素的存在。大概继续前进,您需要获取属性,例如,等,或者您将与元素进行交互。因此,您不需要使用或者valueinnerTextpresence_of_element_located()visibility_of_element_located()element_to_be_clickable()

您可以在WebDriverWait not working as expected中找到详细讨论

  • 为了获得最佳结果,您可以组合IDCLASS 属性,并且可以使用以下任一定位器策略

  • 使用CSS_SELECTOR

  element = WebDriverWait(driver, 20).until(EC.visibility_of_element_located(
    (By.CSS_SELECTOR, ".ng-binding.ng-scope#tabla_evolucion")))
  • 使用XPATH
  element = WebDriverWait(driver, 20).until(EC.visibility_of_element_located(
    (By.XPATH, "//*[@class='ng-binding ng-scope' and @id='tabla_evolucion']")))
于 2019-08-01T17:00:37.120 回答
7

它在文档中。

支持的定位器策略集。
CLASS_NAME = '类名'
CSS_SELECTOR = 'css 选择器'
ID = 'id'
LINK_TEXT = '链接文本'
NAME = '名称'
PARTIAL_LINK_TEXT = '部分链接文本'
TAG_NAME = '标签名'
XPATH = 'xpath'

注意:您的代码中的不是一个类,而是两个类。如果您使用它,那将不起作用,By.CLASS_NAME()因为它只需要一个类。你想要的是一个 CSS 选择器

EC.presence_of_element_located((By.CSS_SELECTOR, ".ng-binding.ng-scope")))

在 CSS 选择器语法中,a.表示一个类。有关 CSS 选择器语法的更多信息,请参阅W3C 文档

于 2019-07-30T02:37:04.063 回答
0

我有一个解决方案试试这个 - 把你的班级class改成CLASS_NAME

element = WebDriverWait(driver,100).until(EC.presence_of_element_located((By.CLASS_NAME , "ng-binding ng-scope")))
于 2021-03-10T15:33:29.930 回答
0

试试下面的:

element = WebDriverWait(driver,100).until(EC.presence_of_element_located((By.CLASS_NAME, "ng-binding")))

或者

element = WebDriverWait(driver,100).until(EC.presence_of_element_located((By.CLASS_NAME, "ng-scope")))

值得一提的是,您正在尝试传递两个类名,即 ng-binding 是一个类,而 ng-scope 是另一个。

于 2021-05-19T21:32:17.670 回答