1

我想将 doc/docx 文档转换为语义 HTML。

一些愿望/要求:

  1. 语义 HTML,例如文档中的标题是 <h1>、<h2> 等,表格是 <table> 等等。

  2. 最好能处理标题、列表、表格和图像。图表和数学公式是一个不错的附加功能。

• 不必直接从 doc/docx 转换为 html,可以使用中间格式,例如 xml 或 docbook。

• 应该以编程方式工作,并处理大量文档。

到目前为止,我找到的最接近解决方案的是http://holloway.co.nz/docvert/index.html,但不幸的是有很多错误,用户群很小,它无法处理很多文件。更多的是概念证明。

4

5 回答 5

2

“文件中的标题是”我认为这是不可能的。因为 MS Word 只记录结果,不同风格的<p> 就像打印在纸上的文字一样,原始信息不会被记录下来。

您的其他愿望可以实现。有两种商业工具可以做到这一点(不要相信那些免费工具或在线工具,它们不会做真正的工作。)

1 Zapadoo 的 Word Cleaner www.zapadoo.com
2 Wonder Studio 的 Word 的 HTML Cleaner www.htmlcleaner.com

我更喜欢去年刚刚发布的第二个。你可以试试他们两个。

于 2010-03-16T09:20:55.147 回答
1

有一个名为upCast的工具可以将 Word 文档转换为 XML。

于 2009-08-26T19:10:19.673 回答
1

我编写了一个实用程序来实现您列出的要求,不包括图像、图表和数学公式。它是 beta 质量(即,它适用于我的机器)。我在http://www.modeltext.com/word上发布了它

于 2009-08-26T19:42:06.880 回答
1

docx4j(仅适用于 docx,不适用于 doc)编写干净的 HTML 输出。如果您想要 <h1> 而不是 <p class="h1">,则需要稍作更改,但它是开源的,因此您可以这样做。

于 2010-09-29T22:11:09.583 回答
0

只是更多的想法。

使用 Gmail 转换 word 文档

http://www.oreillynet.com/mac/blog/2006/05/use_gmail_to_convert_word_docs.html

于 2011-01-17T02:53:49.963 回答