0

我正在尝试找到一种工具来将包含 html 的 TXT 文件解析为纯文本,同时保持其格式化、列表等

我已经能够找到这个http://jsoup.org/apidocs/org/jsoup/examples/HtmlToPlainText.html 完美的作品。唯一的问题是它读取的是 URL,而不是文件。我尝试对代码进行一些更改但没有成功

有人可以指出我如何让​​它读取我的 txt 文件作为输入的正确方向吗?

4

1 回答 1

1

您可以开始研究示例程序的源代码:https ://github.com/jhy/jsoup/blob/master/src/main/java/org/jsoup/examples/HtmlToPlainText.java

从文件而不是 URL 加载 html 非常容易。JSoup 可以轻松解析字符串。

例子

String fileName = "YOURFILE.htm";
Scanner scanner = new Scanner( new File(fileName) );
String content = scanner.useDelimiter("\\A").next();
scanner.close() // Put this call in a finally block

Document doc = Jsoup.parse(content);
//do whatever with the JSoup document
于 2016-01-26T14:02:50.650 回答