我正试图从纽约时报获得文章标题。
但我认为 html 是由 javascript 生成的,因为它只有在我在 firefox 上使用“inspect element”时才可见。我怎样才能找到文章?可能,其中一种方法是模拟浏览器,但这似乎有点矫枉过正。我更喜欢在 Java 中执行此操作,但 Python 也可以。感谢您的帮助!
编辑:我尝试使用 api。但是有很多错误的网址(找不到页面)。有人对如何获取网址和标题有更多想法吗?
我正试图从纽约时报获得文章标题。
但我认为 html 是由 javascript 生成的,因为它只有在我在 firefox 上使用“inspect element”时才可见。我怎样才能找到文章?可能,其中一种方法是模拟浏览器,但这似乎有点矫枉过正。我更喜欢在 Java 中执行此操作,但 Python 也可以。感谢您的帮助!
编辑:我尝试使用 api。但是有很多错误的网址(找不到页面)。有人对如何获取网址和标题有更多想法吗?
您可以尝试使用没有 GUI 的浏览器,例如HtmlUnit。它具有良好的 JavaScript 支持,您可以从 Java 程序中读取页面内容。
作为这个特定问题的替代解决方案,使用New York Times API怎么样?它们为 JavaScript 支持提供 JSONP。如果他们改变了网站布局,使用 API 可能更具前瞻性。