0

I am trying to write a VBA-macro that converts a given MS word document into a sequential list of the document objects contained in that document (e.g., Paragraph, Table, etc.). For each of those objects I want to extract the text contained and its explicit formatting information to save it in a DB.

Would have any pointers for me how to get started? Are there any elegant solutions to this document parsing task?

4

1 回答 1

1

在不了解您的全部要求的情况下,这只是一些建议。

您也许可以做您想做的事,但是将 word 文档拆开并能够将它们重新组合在一起将是一项艰巨的任务。如果您确实想采用这种方法,最好的办法可能是提取段落、图像等,并将这些部分作为单独的文档保存在数据库中。然后可以使用它们将它们重新组合在一起

For i = 1 To ActiveDocument.Paragraphs.Count

 MsgBox ActiveDocument.Paragraphs.Item(i)


Next i


ActiveDocument.Content.InsertAfter AnotherDocument

这是非常基本的,并且需要大量工作才能正常工作。

我想知道将文档转换为 html 会更好(只需保存为 HTML),然后您可以使用开源库来允许用户编辑文档的某些部分。例如,为 jquery 添加jeditable插件,您的 html word 文档中的几乎所有段落都可以编辑。一个简单的后端 php 脚本来保存更改,你就有了一些有用的东西。然后,您还可以记录为翻译目的而发生的变化。

他们的文档可以在发送给客户之前保存为 word 文档或 pdf

只是一个想法。

于 2013-04-28T07:48:22.980 回答