我正在寻找与 HTML::Defang 等效的 C/C++ 功能,而我的 Google-fu 无法发现任何东西。我想保留任何良性标签并去除/去除其他所有内容。缺乏一个实际的库,任何指向完整的标签/属性/等列表的指针都将不胜感激。我知道http://en.wikipedia.org/wiki/DOM_Events。谢谢。
user234021
问问题
986 次
2 回答
1
在 Java 中,我使用 JTidy 来清理 HTML。我不确定它是否适合您的需求,但如果您使用 Google 搜索 JTidy,您也可以点击指向 C/C++ 实现的链接,看看它是否符合您的要求。
至于要除掉什么:查看 HTML 的 W3C 规范;任何不在其中的标签都不属于 HTML。但同样,我可能误解了你的“去方”概念。
于 2009-12-17T18:47:27.263 回答
1
libxml2 是免费的,应该做你想做的。
请参阅 API 的这一部分:http ://www.xmlsoft.org/html/libxml-HTMLparser.html
该htmlReadFile()
功能可能会起作用。
为了让您开始使用 libxml2,可以在此处找到一些示例:
于 2010-07-23T23:46:11.550 回答