我正在尝试找到一种工具来将包含 html 的 TXT 文件解析为纯文本,同时保持其格式化、列表等
我已经能够找到这个http://jsoup.org/apidocs/org/jsoup/examples/HtmlToPlainText.html 完美的作品。唯一的问题是它读取的是 URL,而不是文件。我尝试对代码进行一些更改但没有成功
有人可以指出我如何让它读取我的 txt 文件作为输入的正确方向吗?
我正在尝试找到一种工具来将包含 html 的 TXT 文件解析为纯文本,同时保持其格式化、列表等
我已经能够找到这个http://jsoup.org/apidocs/org/jsoup/examples/HtmlToPlainText.html 完美的作品。唯一的问题是它读取的是 URL,而不是文件。我尝试对代码进行一些更改但没有成功
有人可以指出我如何让它读取我的 txt 文件作为输入的正确方向吗?
您可以开始研究示例程序的源代码:https ://github.com/jhy/jsoup/blob/master/src/main/java/org/jsoup/examples/HtmlToPlainText.java
从文件而不是 URL 加载 html 非常容易。JSoup 可以轻松解析字符串。
例子
String fileName = "YOURFILE.htm";
Scanner scanner = new Scanner( new File(fileName) );
String content = scanner.useDelimiter("\\A").next();
scanner.close() // Put this call in a finally block
Document doc = Jsoup.parse(content);
//do whatever with the JSoup document