2

我正在开发一个必须处理 docx 文件的应用程序。我知道 docx 文件只是 zip 文件中的 xml/images/others 文件。

我的申请必须:

  1. 导入 docx 文件并将其表示形式(文本,以及与表示形式相关的所有内容,例如样式、策略、字体 .... )存储在数据库中。

  2. 提供一种方法来修改网页上每个句子的文本。

  3. 使用新文本导出 docx 文件,同时保留样式/演示文稿。

复杂的是我必须支持嵌套标签。例如,一个包含句子的标签也可以包含一些标签来为单词提供一些粗体。

我对数据库没有任何要求。它可以是任何东西。

我的问题更多是关于如何处理和表示数据以及如何处理我的要求,而不是关于如何解析 XML。

谢谢 !

4

1 回答 1

2

这个问题并不容易。

这是我回答的一些相关问题:Creating RTF , DOC , or DOCX in iOS

读完之后,这是一个真实的单词示例:

<w:p w:rsidP="00CA7135" w:rsidR="00137C91" w:rsidRDefault="00137C91">
            <w:r>
                <w:t>Hello</w:t>
            </w:r>
            <w:r w:rsidR="008C194D">
                <w:t xml:space="preserve"/>
            </w:r>
            <w:r>
                <w:t>My name</w:t>
            </w:r>
        </w:p>
        <w:p w:rsidP="00CA7135" w:rsidR="008C194D" w:rsidRDefault="00137C91">
            <w:r>
                <w:t xml:space="preserve">is</w:t>
            </w:r>
            <w:r w:rsidR="008C194D" w:rsidRPr="00E92392">
                <w:rPr>
                    <w:b/>
                </w:rPr>
                <w:t xml:space="preserve">John Doe</w:t>
            </w:r>
            <w:proofErr w:type="spellStart"/>
            <w:r w:rsidR="008C194D" w:rsidRPr="00E92392">
                <w:rPr>
                    <w:b/>
                </w:rPr>
                <w:t/>
            </w:r>
            <w:proofErr w:type="spellEnd"/>
            <w:r w:rsidR="008C194D" w:rsidRPr="00E92392">
                <w:rPr>
                    <w:b/>
                </w:rPr>
                <w:t xml:space="preserve"/>
            </w:r>
            <w:r w:rsidR="008C194D">
                <w:t xml:space="preserve"/>
            </w:r>
            <w:r>
                <w:t>I want to</w:t>
            </w:r>
            <w:r w:rsidR="008C194D">
                <w:t xml:space="preserve"/>
            </w:r>
            <w:r>
                <w:t>show</w:t>
            </w:r>
            <w:r w:rsidR="00E92392">
                <w:t xml:space="preserve">how difficult it is</w:t>
            </w:r>
        </w:p>

如您所见,一个段落中的文字永远不会只有一笔。

回答您的问题:

  1. 我认为将 docx 存储在数据库中的唯一方法是将完整的 XML 和图像(或 docx 作为 ByteArray)存储
  2. 要修改一个段落中的文本,您可以搜索所有<w:t>标签并将它们按相同的<w:p>标签分组。例如“你好”和“我的名字”在同一个<w:p>。然后你会想办法知道文本的插入位置,并在右边插入文本<w:t>
  3. 这只是将 XML 和图像重新压缩在一起
于 2013-06-05T09:48:20.100 回答