我正在寻找 TagSoup 和 jTidy 库的文档(如果可能的话,官方文档)。
我想使用这个库来操作 html“tagsoup”文件,这些文件包括 xml 标记,其中不同的命名空间混合在 html(html、xhtml 或 html5)标记之间。
我已经测试过 HTMLCleaner、NekoHTML 和 Jericho,但除了清除文件的最简单示例之外,我没有找到 jTidy 和 TagSoup 的文档。
我需要有关操作内容、替换标签、提取信息等的文档...
谢谢
注意:测试所有选项后,我使用了StAX / Woodstox: