3

我有一个网页: http: //kff.org/womens-health-policy/state-indicator/ultrasound-requirements/# ,我需要从这个网页中提取表格。

遇到的问题:我一直在使用 BeautifulSoup 并请求获取 url 内容。这些方法的问题在于,即使在生成表格之前,我也能够获取 Web 内容。

所以我得到空表<table> <thead></thead> <tbody></tbody></table>

我的方法:现在我尝试使用 webbrowser.open_new_tab(url) 在浏览器中打开 url,然后直接从浏览器中获取内容。这将使服务器更新表格,然后我将能够从页面获取内容。

问题:我不确定如何直接从 Web 浏览器获取信息。

现在我在 Windows 系统上使用 Mozilla。

找到最近的链接网站链接。但它给出了哪些网站被打开而不是内容

有没有其他方法可以让表格加载到 urllib2 或 beautifulsoup 和 requests 中?或者有什么方法可以直接从网页获取加载的内容。

谢谢

4

2 回答 2

2

表格没有被填充的原因是因为 Python 没有处理它使用 urllib2 接收到的页面 - 所以没有 DOM,没有运行的 Javascript 等等。

阅读完源代码后,您可以在http://kff.org/datacenter.json?post_id=32781以 JSON 格式找到您要查找的信息。

于 2014-06-19T19:40:15.240 回答
2

要添加到 Santiclause 答案,如果您想抓取 java 脚本填充的数据,您需要一些东西来执行它。

为此,您可以使用 selenium 包和 webdriver,例如 Firefox 或 PhantomJS(无头)连接到页面,执行脚本并获取数据。

您的案例示例:

from selenium import webdriver
driver = webdriver.Firefox() # You can replace this with other web drivers
driver.get("http://kff.org/womens-health-policy/state-indicator/ultrasound-requirements/#")
source = driver.page_source # Here is your populated data.
driver.quit() # don't forget to quit the driver!

当然,如果您可以像提到的用户 Santiclause 那样访问直接 json,您应该这样做。在检查网站上的元素时,您可以通过检查网络选项卡找到它,这需要一些玩弄。

于 2014-06-20T12:46:46.850 回答