1

我正在尝试学习如何解析 HTML,但由于我在 Java 或 Android 方面没有太多经验,所以它有点复杂。我已经阅读了 IBM XML 解析教程并学会了解析 RSS 提要。我的问题是:我想从 HTML 站点获取数据。我已经阅读了一些关于 HTML 清理器、JSON 等的信息,但是我找不到一个好的教程来帮助我。你有任何可能有用的教程吗?

谢谢。

4

2 回答 2

0

IMO 有两种简单的方法来解析 HTML:

  • 使用库(例如 HTMLTidy)将 HML 转换为 XML (XHTML),然后使用 XML 解析器
  • 使用现有的 HTML 解析器(例如,标准的 Web 浏览器,如 WebKit、ForeFox 和/或 IE),然后读取“DOM”,它是对已解析 HTML 或多或少 API 友好的表示形式

或者,如果您想编写自己的解析器(我怀疑您应该这样做,因为家庭作业:正确/完整地实现它会很长而且很复杂),请参阅解析 HTML 的规范

于 2011-01-28T18:11:53.727 回答
0

查看以下 HTML 解析器。还有更多。也许一个会为你工作:

于 2011-01-28T19:10:58.570 回答