10

这可能是用另一种方式问的。但是,我不是即时进行的。有时,我们会在 word 文件中获得包含短划线、粗体、斜体文本和块引号的内容片段。有没有一个很好的工具可以将它转换成干净的 html 代码。

否则人们采取什么其他方法。

4

14 回答 14

4

很久以前,我的任务是获取一个结构合理的多兆字节 word 文档并将其转换为一系列 HTML 页面(大约 20,000 个!)这是通过将 word doc 保存为 RTF(Word 的 Save As HTML output太“脏”了)并通过 Perl 脚本将 RTF 转换为 HTML。转换是一个两遍过程...首先清理常见的格式错误,然后将清理的 RTF 转换为 HTML。

由于文档编辑人员继续维护 Word 文档,因此在第一遍中编写常见的格式错误是值得的,因为即使在修复后错误经常会再次出现。

顺便说一句,这个过程显示了一个非常怀疑的管理人员如何在短短 40 小时(左右)内生成约 20,000 个网页无限期更新,而原作者(他们的时间更有价值)会花费数百小时进行转换,此后将被迫手动维护生成的 HTML。

于 2008-11-25T16:37:49.947 回答
2

我很惊讶没有人提到它,但HTML Tidy通常做得很好。我最近没有使用它,但我知道它特别适合清理从 Word 中暴露的 HTML 内容。

于 2008-11-25T22:03:01.553 回答
2

我使用 TinyMCE 剥离和转换单个 Word 文档。它是免费的,只要您可以将其上传到您的虚拟主机(假设您有一个)。我保护我的安装以避免垃圾邮件,但您可以在http://tinymce.moxiecode.com/tryit/full.php使用他们的演示。

它实际上比我尝试过的大多数独立转换程序做得更好,至少在我如何使用它方面。

于 2011-06-08T20:38:09.327 回答
1

对我来说,最简单快捷的方法是从 Word 中复制所有文本,然后使用特殊粘贴命令将其粘贴到Dreamweaver(从 MX 到 CS3 的任何版本)的所见即所得编辑器中,并选择仅保留文档的结构。如果您的 word 文档不太复杂,它会很好用,如果它真的很复杂,您只需要在代码视图中进行额外的编辑。生成的 html 非常干净。

这种方法的唯一问题是您需要 Dreamweaver,它不是免费的。无论如何,您可以使用 DW 的试用版来测试该方法。

于 2008-11-25T17:07:36.530 回答
1

几年前,我为 Microsoft Office Word 2003 (.NET 2.0) 编写了一个名为 CleanXHTML 1.2的工具。这旨在在 Word内部工作,并允许您根据文档中突出显示(或选择)的内容导出 XHTML。多年来,我一直在使用 Word 2007 版本。

于 2009-11-14T01:46:24.667 回答
1

我编写了一个命令行实用程序来执行此操作:有关详细信息,请参阅此Doc to HTML converter

于 2010-08-13T00:27:11.917 回答
1

你可以试试这个Doc To HTML Converter。它不是免费的,但它确实解决了问题。

于 2011-09-05T16:22:39.160 回答
1

死灵术:

在 Word 2013 中打开 Word 文档。
另存为 odt(OpenOffice 文档)。
使用 OpenOffice 打开
要么使用
"Save As" ==> HTML-Document
要么使用

"File" ==> Export ==> XHTML

导出需要安装 JRE,另存为则不需要。

对于 Word,您可以使用 COM 互操作,也可以使用 Aspose Words。

您也可以直接使用 aspose.words,只需使用 xpath 查询删除“版权”文本;)

于 2014-10-07T10:39:17.433 回答
0

Word 用自己的编码非常“脏”。根据用户是否使用内置样式(标题 1、标题 2 等)与更改字体大小,它可以有嵌套的粗体标签、空的粗体标签和各种讨厌的东西。任何使用 Word 文档并尝试将其“转换”为 HTML 的内容也将继承相同的标记问题。

最好的办法是在 Word 中记录一个宏,以便对明显的事物执行多个搜索和替换操作,例如 M 破折号、制表符、省略号等。

然后用占位符(如~ )替换段落分隔符^p^p ,然后用空格替换所有单个分隔符(^p ),然后用~替换以生成 HTML 段落。</p>^p</p>

然后复制整个文档,将其粘贴到记事本中以删除任何非 ascii 标记,然后将其复制并粘贴到 HTML 编辑器中,并手动标记剩余的 10%,例如粗斜体、不匹配的段落标签等。

没有什么比手工编码更好的了,因此使用这种技术可以完成大部分繁琐的工作,并且您可以从干净的文本开始。

于 2008-11-25T16:20:56.250 回答
0

转换为 RTF 并使用 XSLT 将富文本转换为 HTML。我建议尝试将所有内容都作为 RTF 而不是 .docx 或任何 Word 格式。

于 2008-11-25T16:46:24.560 回答
0

您可能想试试这个工具:OpenXML Document Viewer

它提供了一个用于将 OpenXML (DOCX) 文档转换为 HTML 的命令行工具。

于 2008-11-25T16:49:39.033 回答
0

如果您可以安装 Word 2003 或 2007,那么您可以使用新的 OOXML 格式来生成 XML 文件。格式很奇怪……很复杂,但至少您可以使用标准工具对其进行解析。这应该允许您从文件中提取所需的信息。

文件OfficeXMLMarkupExplained_en.docx包含 OOXML 工作原理的介绍和许多细节。

于 2008-11-25T16:52:32.990 回答
0

也可以试试http://www.manglebracket.com/,它是一个网络应用程序,您可以在其中上传 Word DOC 并将其转换为具有各种(真的太多)选项的 HTML。例如,当您的撰稿人在 Word 中向您发送新闻稿并且您想将其放在网站上时,非常适合临时转换。

于 2009-11-28T21:19:39.623 回答
0

WordDown是一个用于将 Microsoft Word 文档转换为 HTML5 的小书签。它不仅改变了文档的语法,还改变了语义和视觉外观。在我的测试用例中,与原始文档相比,视觉结果非常令人愉悦。如果要打印转换后的文档,您应该知道左侧的红色小横幅不包含在打印样式表中。

于 2012-02-01T11:29:57.907 回答