(我见过类似的问题,但我认为它们都不能满足我的特定需求,因此......)
我想知道是否有用于分析现实世界(阅读:不完整、格式错误)HTML 的 Java 库。通过分析,我的意思是:
- 找出 HTML 块中最突出的颜色
- 将该颜色更改为其他颜色(因此,还必须支持修改 HTML)
- 修剪掉不需要的标签
- 修复 HTML 以生成格式良好的 HTML 片段
最后两个部分由 Jericho 和 jTidy 等库完成。在这些之上的“插件”会很棒。
提前致谢!
(我见过类似的问题,但我认为它们都不能满足我的特定需求,因此......)
我想知道是否有用于分析现实世界(阅读:不完整、格式错误)HTML 的 Java 库。通过分析,我的意思是:
最后两个部分由 Jericho 和 jTidy 等库完成。在这些之上的“插件”会很棒。
提前致谢!
您可能想查看 TagSoup:
好吧,我会先将它整理成有效的 XML,然后使用 XSLT 进行有条件的深拷贝,我将在其中进行最突出的颜色/修剪/您需要的任何处理。
也许你会在这个列表中找到一些东西(试试 TagSoup、NekoHTML、VietSpider HTMLParser)。