我有从 Microsoft Word 生成的 html 格式的相当大的文档。它太乱了,充满了臃肿的东西(比如未知标签、未知名称空间等和其他臃肿的东西)
有什么方法可以将其转换为纯 html sytax 吗?
试试HTML Tidy。我听说它在 MS Word 生成的 HTML 上工作得很好(肯定至少到 Word 2000,但也可能在更新的版本上)。
这并不是一个真正的编程问题,但是(至少是最新版本的)Word 可以保存到“Web Page, Filtered”,这会删除 Office 特定的标签和属性,只留下在文档中呈现所需的标签网页浏览器。因此,如果您有 Word,您可以尝试使用它打开 HTML 文档并以该格式保存。
您可能正在寻找HTML Tidy,它具有几乎所有语言的适配器。它具有清理 Microsoft Word HTML 输出(和许多其他功能)的选项。
试试Cleanup HTML在线工具来清理 word HTML