java - 正确使用 JTidy 来净化 HTML

Question

我正在尝试使用 JTidy (jtidy-r938.jar) 来清理输入的 HTML 字符串，但我似乎无法正确设置默认设置。通常，诸如“hello world”之类的字符串在整理后会变成“helloworld”。我想展示我在这里做什么，任何指针都将不胜感激：

假设这rawHtml是包含输入（真实世界）HTML 的字符串。这就是我正在做的事情：

        Tidy tidy = new Tidy();
        tidy.setPrintBodyOnly(true);

        ByteArrayOutputStream baos = new ByteArrayOutputStream();
        PrintStream ps = new PrintStream(baos);

        tidy.parse(new StringReader(rawHtml), ps);
        return baos.toString("UTF8");

首先，上面的代码看起来有什么根本错误吗？我似乎得到了奇怪的结果。

例如，考虑以下输入：

???private String parseDescription

输出是：

    privateString parseDescription

所以，

“公共字符串解析描述”变为“公共字符串解析描述”

提前致谢！

score 3 · Accepted Answer

看看 JTidy 是如何配置的：

StringWriter writer = new StringWriter();
tidy.getConfiguration().printConfigOptions(writer, true);
System.out.println(writer.toString());

也许它会弄清楚导致问题的原因。

有什么奇怪的？实际输出和预期的小例子......也许？

score 2 · Accepted Answer

好吧，这似乎是 Jtidy 中的一个错误。有关导致问题的确切文件，请参阅此处：

http://sourceforge.net/tracker/?func=detail&aid=2985849&group_id=13153&atid=113153

感谢所有帮助的人！

score 1 · Accepted Answer

下面是我们如何从 Ant 调用 JTidy。您可以从中推断出 API 调用：

<tidy destdir="${build.dir.result}">
  <fileset dir="${src}" includes="**/*.htm"/>
  <parameter name="tidy-mark" value="false"/>
  <parameter name="output-xml" value="no"/>
  <parameter name="numeric-entities" value="yes"/>
  <parameter name="indent-spaces" value="2"/>
  <parameter name="indent-attributes" value="no"/>
  <parameter name="markup" value="yes"/>
  <parameter name="wrap" value="2000"/>
  <parameter name="uppercase-tags" value="no"/>
  <parameter name="uppercase-attributes" value="no"/>
  <parameter name="quiet" value="no"/>
  <parameter name="clean" value="yes"/>
  <parameter name="show-warnings" value="yes"/>
  <parameter name="break-before-br" value="yes"/>
  <parameter name="hide-comments" value="yes"/>
  <parameter name="char-encoding" value="latin1"/>
  <parameter name="output-html" value="yes"/>
</tidy>

java - 正确使用 JTidy 来净化 HTML

3 回答 3

Related

Reference