python - Splinter 或 Selenium：我们可以在单击按钮后获取当前的 html 页面吗？

Question

我正在尝试抓取网站“ http://everydayhealth.com ”。但是，我发现页面会动态呈现。因此，当我单击“更多”按钮时，将显示一些新消息。但是，使用 splinter 单击按钮不会让“browser.html”自动更改为当前的 html 内容。有没有办法让它获得最新的 html 源代码，使用 splinter 或 selenium？我在 splinter 中的代码如下：

import requests
from bs4 import BeautifulSoup
from splinter import Browser

browser = Browser()
browser.visit('http://everydayhealth.com')
browser.click_link_by_text("More")

print(browser.html)

根据@Louis 的回答，我将程序改写如下：

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait

driver = webdriver.Firefox()
driver.get("http://www.everydayhealth.com")
more_xpath = '//a[@class="btn-more"]'
more_btn = WebDriverWait(driver, 10).until(lambda driver: driver.find_element_by_xpath(more_xpath))
more_btn.click()
more_news_xpath = '(//a[@href="http://www.everydayhealth.com/recipe-rehab/5-herbs-and-spices-to-intensify-flavor.aspx"])[2]'
WebDriverWait(driver, 5).until(lambda driver: driver.find_element_by_xpath(more_news_xpath))

print(driver.execute_script("return document.documentElement.outerHTML;"))
driver.quit()

但是，在输出文本中，我仍然找不到更新页面中的文本。例如，当我搜索“Milk Your Friend or Foe?”时，它仍然没有返回任何内容。有什么问题？

score 3 · Accepted Answer

使用 Selenium，假设这driver是您的初始化WebDriver对象，这将为您提供与您进行调用时 DOM 状态相对应的 HTML：

driver.execute_script("return document.documentElement.outerHTML;")

返回值是一个字符串，所以你可以这样做：

print(driver.execute_script("return document.documentElement.outerHTML;"))

score -1 · Accepted Answer

-1

当我将 Selenium 用于此类任务时，我知道browser.page_source确实会更新。

于 2014-11-08T15:38:28.963 回答

python - Splinter 或 Selenium：我们可以在单击按钮后获取当前的 html 页面吗？

2 回答 2

Related

Reference