0

(我见过类似的问题,但我认为它们都不能满足我的特定需求,因此......)

我想知道是否有用于分析现实世界(阅读:不完整、格式错误)HTML 的 Java 库。通过分析,我的意思是:

  • 找出 HTML 块中最突出的颜色
  • 将该颜色更改为其他颜色(因此,还必须支持修改 HTML)
  • 修剪掉不需要的标签
  • 修复 HTML 以生成格式良好的 HTML 片段

最后两个部分由 Jericho 和 jTidy 等库完成。在这些之上的“插件”会很棒。

提前致谢!

4

4 回答 4

4

您可能想查看 TagSoup:

http://home.ccil.org/~cowan/XML/tagsoup/

于 2010-01-27T06:39:03.950 回答
2

好吧,我会先将它整理成有效的 XML,然后使用 XSLT 进行有条件的深拷贝,我将在其中进行最突出的颜色/修剪/您需要的任何处理。

于 2010-01-27T06:33:56.897 回答
1

看看JTidy ,它是HTML Tidy的 Java 端口。根据您选择的选项,它将修复格式不正确的 HTML 并以其他方式清理它。

你需要别的东西来改变颜色的东西。

于 2010-01-27T06:29:37.660 回答
0

也许你会在这个列表中找到一些东西(试试 TagSoup、NekoHTML、VietSpider HTMLParser)。

于 2010-03-13T11:21:53.737 回答