我正在使用 VC++ 2010 Express,并尝试包含 HTML Tidy 以对 HTML 代码字符串执行清理。我想要做的是将HTML作为字符串处理(不是来自文件)并将处理后的清理HTML保存到字符串(不是文件)。该项目是一个 C++ Windows 窗体项目,编译器是 /CLR。
我曾多次尝试以各种方式将 Tidy 附加到我的项目中。我每次尝试都失败了,我只是不知道从这里去哪里。最有希望的是一个名为 TidyManaged 的 .NET 包装器,但我找不到任何文档来解释如何将它与 C++ 一起使用(它似乎是为 C# 设计的)。各种 C++ 包装器根本不适合我。似乎文档非常缺乏如何使它们工作。
此外,我准备接受一个根本不使用 tidy 的解决方案,而是使用其他一些等效的 HTML 清理工具。我担心 Tidy 的时代(2000 年 8 月)以及它是否对当今较新的 XHTML 标准仍然有效。
此外,如果可能的话,我愿意将 C 库直接合并到我的代码中,而不依赖于 DLL,但我不知道如何使这项工作或即使它可以工作。
任何有关如何解决此问题的建议将不胜感激,请记住这是我们在这里讨论的 HTML(通常是格式错误的 HTML 和 XHTML)而不是 XML。
提前致谢!
PS - 我是 C++ 新手:/