我正在尝试获取由网页中的 JavaScript 动态生成的 HTML 表格的内容,并使用 BeautifulSoup 对其进行解析以使用表格中的某些值。
driver.page_source
由于内容是由 JavaScript 生成的,它在源代码 ( )中不可用。
有没有其他方式来获取内容并使用它?它是包含任务列表的表格,我需要解析表格并确定我正在搜索的特定任务是否可用。
我正在尝试获取由网页中的 JavaScript 动态生成的 HTML 表格的内容,并使用 BeautifulSoup 对其进行解析以使用表格中的某些值。
driver.page_source
由于内容是由 JavaScript 生成的,它在源代码 ( )中不可用。
有没有其他方式来获取内容并使用它?它是包含任务列表的表格,我需要解析表格并确定我正在搜索的特定任务是否可用。
正如 Julian 所提到的,我宁愿在 Firebug(或其他浏览器中的类似工具)中检查我的“Net”选项卡并获取这样的数据。如果数据是 JSON,只需使用json.loads()
,如果是 html,您可以使用 BS 或您所说的任何其他 lib 解析它。也许你想试试我的dummy lib,它简化了这一点并将表格作为 tablib 对象返回,你可以得到 csv、excel、json 等。
您需要弄清楚 Javascript 发出的 HTTP 请求,并在 Python 代码中发出相同的请求。你可以通过使用你最喜欢的浏览器的开发工具来做到这一点,或者如果强制使用wireshark。