1

当我使用 InputStreamReader 从网页读取数据时,一切正常。我在将数据解析为 DocumentHTML 时遇到问题。

主要原因是 HTML 脚本中有一些特殊字符使用不正确。有一个 & 符号两次( "&&" ),我相信这会导致代码崩溃。

我的代码如下所示:

URL url = new URL(PageUrl);
URLConnection conn = url.openConnection();
// ... omitted ...

// parsing
HTMLDocument doc = (HTMLDocument)db.parse(conn.getInputStream());

由于我正在制作 Android 应用程序,因此我不使用标准解析函数,因为 DocumentHTML 对象会太大。

我发现了许多现有的解析 HTML 的例子,比如使用 jsoup,但它们不是我想要的。

我想编写自己的解析代码,以使 HTMLDocument 对象保持较小。

4

1 回答 1

0

为什么不使用 java 中所有可用的 Html 解析器?他们有社区支持,因此是最佳选择。

Java 中的开源 HTML 解析器

于 2012-11-20T22:30:26.390 回答