java - 如何从 HtmlCleaner 获取已清理的 html 文件？

Question

我的应用程序第一次启动时会将某个网站下载为 HTML 文件。HTML 文件当然很乱，所以我想用 HtmlCleaner 清理它，然后我可以用 Jsoup 解析它。但是如何在清理后获得新的清理过的 html 项目？

我做了一些研究，这就是我能找到的全部：

HtmlCleaner htmlCleaner = new HtmlCleaner();

TagNode root = htmlCleaner.clean(url);

HtmlCleaner.getInnerHtml(root);

String html = "<" + root.getName() + ">" + htmlCleaner.getInnerHtml(root) + "</" + root.getName() + ">";

但是我看不到这段代码在哪里写入了一个新文件？如果没有，我该如何实现它以便删除旧文件并创建新的清理过的 html 文件？

score 0 · Accepted Answer

您可以执行以下操作：

HtmlCleaner cleaner = new HtmlCleaner();
final String siteUrl = "http://www.themoscowtimes.com/";

TagNode node = cleaner.clean(new URL(siteUrl));


// serialize to xml file
new PrettyXmlSerializer(props).writeToFile(
    node , "cleaned.xml", "utf-8"
);

或者

// serialize to html file
SimpleHtmlSerializer serializer = new SimpleHtmlSerializer(htmlCleaner.getProperties());
serializer.writeToFile(node, "c:/temp/cleaned.html");

java - 如何从 HtmlCleaner 获取已清理的 html 文件？

1 回答 1

Related

Reference