今天我尝试使用lib as jericho-html-3.2从简单的html中提取文本......我遇到了一个奇怪的文本假长度问题,如下所示:
如果我有 html 作为这个
Hello World :)<br><br>Hello World :(<br><br>Hello World ;)<br>
...我的RichTextArea getText().length()
返回42,它实际上是正确的长度,但是当我尝试使用类似的代码从这个 html 中提取文本时
Source source = new Source(html);
String text = source.getTextExtractor().toString();
...text.length()
回报44
所以我不明白为什么长度为42的文本变成长度为44的文本以及如何修复它?
谢谢