当我使用 InputStreamReader 从网页读取数据时,一切正常。我在将数据解析为 DocumentHTML 时遇到问题。
主要原因是 HTML 脚本中有一些特殊字符使用不正确。有一个 & 符号两次( "&&" ),我相信这会导致代码崩溃。
我的代码如下所示:
URL url = new URL(PageUrl);
URLConnection conn = url.openConnection();
// ... omitted ...
// parsing
HTMLDocument doc = (HTMLDocument)db.parse(conn.getInputStream());
由于我正在制作 Android 应用程序,因此我不使用标准解析函数,因为 DocumentHTML 对象会太大。
我发现了许多现有的解析 HTML 的例子,比如使用 jsoup,但它们不是我想要的。
我想编写自己的解析代码,以使 HTMLDocument 对象保持较小。