0

我正试图从纽约时报获得文章标题。

但我认为 html 是由 javascript 生成的,因为它只有在我在 firefox 上使用“inspect element”时才可见。我怎样才能找到文章?可能,其中一种方法是模拟浏览器,但这似乎有点矫枉过正。我更喜欢在 Java 中执行此操作,但 Python 也可以。感谢您的帮助!

编辑:我尝试使用 api。但是有很多错误的网址(找不到页面)。有人对如何获取网址和标题有更多想法吗?

4

3 回答 3

0

您可以尝试使用没有 GUI 的浏览器,例如HtmlUnit。它具有良好的 JavaScript 支持,您可以从 Java 程序中读取页面内容。

于 2013-07-29T08:51:07.567 回答
0

作为这个特定问题的替代解决方案,使用New York Times API怎么样?它们为 JavaScript 支持提供 JSONP。如果他们改变了网站布局,使用 API 可能更具前瞻性。

于 2013-07-29T08:52:35.853 回答
0

Selenium可能是您正在寻找的;它是一个浏览器自动化框架。

您可以使用 Python,但 Selenium 实际上使用 Firefox 来解析站点的内容(我上次听说)。

您可以在此处获取 python 版本,但还有其他选项

于 2013-07-29T08:49:24.253 回答