0

如果这个问题不适合本网站,请提前道歉。

我已经用 Microsoft Word 编写了一些文档,我还需要在网站上显示为 HTML。为此,我需要将这些文档的内容输入到带有 HTML 标记的数据库中。因此,例如,这是我需要放入数据库的内容:

<h1>Document Title</h1>
<p>This is the introduction paragraph for the document</p>
<ol>
<li>This is a summary point</li>
</ol>

我的问题是,将 Microsoft Word 保存为 HTML 页面会添加太多额外的标记(主要是内联 CSS 的表现形式),以至于我很难像上面的示例那样将其剥离到基本的 HTML 结构中。

那么如何保持离线和在线内容同步呢?我想避免制作同一文档的两个版本(一个在 Word 中,一个在 HTML 中),因为保持它们同步会很困难。

可以将 MS Word 设置为保存为 HTML 而无需任何演示格式吗?还是我应该使用其他软件?

4

4 回答 4

1

如果文档数量有限并且您可以使用手动程序来转换它们,也许一些免费的在线服务,如word2cleanhtml.comwww.textfixer.comdocument.online-convert.com可以帮助您。

但是如果你想自动化这个过程,你必须知道docx格式实际上是一个zip包含文档所有元素(图像、表格、文本等)的文件。这些项目被分类在子文件夹下,其中大部分是 XML 格式。因此,您可以使用此处解释的技术从docx文件中提取所需的内容。

还有一些已知的商业和开源库可让您操作或提取docx文件内容。Apache POIOpenOffice等API是开源项目的示例,而Aspose Word for Java是一种商业产品,是该领域可用的最佳 API 之一。

于 2013-10-05T17:41:08.617 回答
1

根据经验,我建议坚持使用 Word 保存到 html 的方法。删除 mso 标签的困难比新引入的任何其他替代解决方案的问题更容易克服。

有很多 javascript 富文本编辑器 FCKEditor 和 TinyMCE 可以去除单词标签——我建议你研究一下,这些插件是开源的吗?

于 2013-10-05T18:15:48.110 回答
1

感谢您的答复。我尝试了各种在线转换器,但它们从未正确转换列表。编号列表被放入<p>错误的元素中。最后我发现了如何轻松地做到这一点......

将整个 Word 文档复制并粘贴到 Adob​​e Dreamweaver 中。然后进入代码视图,您会看到 Dreamweaver 已经漂亮地应用了正确、干净的 HTML 标记!

于 2013-10-05T20:33:29.963 回答
0

如果您使用 ColdFusion,您可以使用 DocExtactor http://docxextractor.riaforge.org/

您可以访问所有源代码,因此可以对其进行修改以获得您需要的 HTML 格式

免责声明:我写的

于 2013-11-17T19:55:57.597 回答