java - 如何访问由 javascript 生成的 html 信息？

Question

我正试图从纽约时报获得文章标题。

但我认为 html 是由 javascript 生成的，因为它只有在我在 firefox 上使用“inspect element”时才可见。我怎样才能找到文章？可能，其中一种方法是模拟浏览器，但这似乎有点矫枉过正。我更喜欢在 Java 中执行此操作，但 Python 也可以。感谢您的帮助！

编辑：我尝试使用 api。但是有很多错误的网址（找不到页面）。有人对如何获取网址和标题有更多想法吗？

score 0 · Accepted Answer

您可以尝试使用没有 GUI 的浏览器，例如HtmlUnit。它具有良好的 JavaScript 支持，您可以从 Java 程序中读取页面内容。

score 0 · Accepted Answer

作为这个特定问题的替代解决方案，使用New York Times API怎么样？它们为 JavaScript 支持提供 JSONP。如果他们改变了网站布局，使用 API 可能更具前瞻性。

score 0 · Accepted Answer

Selenium可能是您正在寻找的；它是一个浏览器自动化框架。

您可以使用 Python，但 Selenium 实际上使用 Firefox 来解析站点的内容（我上次听说）。

您可以在此处获取 python 版本，但还有其他选项。

3 回答 3