这可能是用另一种方式问的。但是,我不是即时进行的。有时,我们会在 word 文件中获得包含短划线、粗体、斜体文本和块引号的内容片段。有没有一个很好的工具可以将它转换成干净的 html 代码。
否则人们采取什么其他方法。
很久以前,我的任务是获取一个结构合理的多兆字节 word 文档并将其转换为一系列 HTML 页面(大约 20,000 个!)这是通过将 word doc 保存为 RTF(Word 的 Save As HTML output太“脏”了)并通过 Perl 脚本将 RTF 转换为 HTML。转换是一个两遍过程...首先清理常见的格式错误,然后将清理的 RTF 转换为 HTML。
由于文档编辑人员继续维护 Word 文档,因此在第一遍中编写常见的格式错误是值得的,因为即使在修复后错误经常会再次出现。
顺便说一句,这个过程显示了一个非常怀疑的管理人员如何在短短 40 小时(左右)内生成约 20,000 个网页并无限期更新,而原作者(他们的时间更有价值)会花费数百小时进行转换,此后将被迫手动维护生成的 HTML。
我很惊讶没有人提到它,但HTML Tidy通常做得很好。我最近没有使用它,但我知道它特别适合清理从 Word 中暴露的 HTML 内容。
我使用 TinyMCE 剥离和转换单个 Word 文档。它是免费的,只要您可以将其上传到您的虚拟主机(假设您有一个)。我保护我的安装以避免垃圾邮件,但您可以在http://tinymce.moxiecode.com/tryit/full.php使用他们的演示。
它实际上比我尝试过的大多数独立转换程序做得更好,至少在我如何使用它方面。
对我来说,最简单快捷的方法是从 Word 中复制所有文本,然后使用特殊粘贴命令将其粘贴到Dreamweaver(从 MX 到 CS3 的任何版本)的所见即所得编辑器中,并选择仅保留文档的结构。如果您的 word 文档不太复杂,它会很好用,如果它真的很复杂,您只需要在代码视图中进行额外的编辑。生成的 html 非常干净。
这种方法的唯一问题是您需要 Dreamweaver,它不是免费的。无论如何,您可以使用 DW 的试用版来测试该方法。
几年前,我为 Microsoft Office Word 2003 (.NET 2.0) 编写了一个名为 CleanXHTML 1.2的工具。这旨在在 Word内部工作,并允许您根据文档中突出显示(或选择)的内容导出 XHTML。多年来,我一直在使用 Word 2007 版本。
我编写了一个命令行实用程序来执行此操作:有关详细信息,请参阅此Doc to HTML converter。
你可以试试这个Doc To HTML Converter。它不是免费的,但它确实解决了问题。
死灵术:
在 Word 2013 中打开 Word 文档。
另存为 odt(OpenOffice 文档)。
使用 OpenOffice 打开
要么使用"Save As" ==> HTML-Document
要么使用
"File" ==> Export ==> XHTML
导出需要安装 JRE,另存为则不需要。
对于 Word,您可以使用 COM 互操作,也可以使用 Aspose Words。
您也可以直接使用 aspose.words,只需使用 xpath 查询删除“版权”文本;)
Word 用自己的编码非常“脏”。根据用户是否使用内置样式(标题 1、标题 2 等)与更改字体大小,它可以有嵌套的粗体标签、空的粗体标签和各种讨厌的东西。任何使用 Word 文档并尝试将其“转换”为 HTML 的内容也将继承相同的标记问题。
最好的办法是在 Word 中记录一个宏,以便对明显的事物执行多个搜索和替换操作,例如 M 破折号、制表符、省略号等。
然后用占位符(如~ )替换段落分隔符^p^p ,然后用空格替换所有单个分隔符(^p ),然后用~替换以生成 HTML 段落。</p>^p</p>
然后复制整个文档,将其粘贴到记事本中以删除任何非 ascii 标记,然后将其复制并粘贴到 HTML 编辑器中,并手动标记剩余的 10%,例如粗斜体、不匹配的段落标签等。
没有什么比手工编码更好的了,因此使用这种技术可以完成大部分繁琐的工作,并且您可以从干净的文本开始。
转换为 RTF 并使用 XSLT 将富文本转换为 HTML。我建议尝试将所有内容都作为 RTF 而不是 .docx 或任何 Word 格式。
您可能想试试这个工具:OpenXML Document Viewer。
它提供了一个用于将 OpenXML (DOCX) 文档转换为 HTML 的命令行工具。
如果您可以安装 Word 2003 或 2007,那么您可以使用新的 OOXML 格式来生成 XML 文件。格式很奇怪……很复杂,但至少您可以使用标准工具对其进行解析。这应该允许您从文件中提取所需的信息。
文件OfficeXMLMarkupExplained_en.docx包含 OOXML 工作原理的介绍和许多细节。
也可以试试http://www.manglebracket.com/,它是一个网络应用程序,您可以在其中上传 Word DOC 并将其转换为具有各种(真的太多)选项的 HTML。例如,当您的撰稿人在 Word 中向您发送新闻稿并且您想将其放在网站上时,非常适合临时转换。
WordDown是一个用于将 Microsoft Word 文档转换为 HTML5 的小书签。它不仅改变了文档的语法,还改变了语义和视觉外观。在我的测试用例中,与原始文档相比,视觉结果非常令人愉悦。如果要打印转换后的文档,您应该知道左侧的红色小横幅不包含在打印样式表中。