3

我正在尝试使用 JSoup 解析包含以下文本的 URL Ætterni:. 解析文档后,相同的字符串如下所示:Ætterni.

如何防止这种形式发生?我希望文档 1:1 完全一样。

代码:

doc = Jsoup.connect(url).get();
String docEncoding=doc.outputSettings().charset().name();
OutputStreamWriter writer = new OutputStreamWriter(new FileOutputStream(localLink),docEncoding);
writer.write(doc.html());
writer.close();
4

2 回答 2

5

用于 doc.outputSettings().escapeMode(EscapeMode.xhtml); 避免实体转换。

于 2011-12-12T18:08:38.760 回答
2

你似乎没有以任何方式利用 Jsoup 的力量。我只是使用java.net.URL. 这样您就有了响应的 1:1 副本。

InputStream input = new URL(url).openStream();
OutputStream output = new FileOutputStream(localLink);
// Now copy input to output the usual Java IO way.

你不应该使用/Reader因为Writer这可能会使未知编码的源字符格式错误,因为将使用平台默认编码。

于 2011-06-08T13:58:04.480 回答