50

我想在 Word 2007 文件 (.docx) 中搜索文本字符串,例如,可以/将在 Word 中搜索的“一些特殊短语”。

有没有办法从 Python 中查看文本?我对格式化不感兴趣——我只想将文档分类为有或没有“一些特殊短语”。

4

10 回答 10

156

在阅读了您上面的帖子后,我制作了一个 100% 原生 Python docx 模块来解决这个特定问题。

# Import the module
from docx import *

# Open the .docx file
document = opendocx('A document.docx')

# Search returns true if found    
search(document,'your search string')

docx 模块位于https://python-docx.readthedocs.org/en/latest/

于 2009-12-30T12:08:33.283 回答
35

更准确地说,.docx 文档是 OpenXML 格式的 Zip 存档:您必须首先解压缩它。
我下载了一个示例(谷歌:一些搜索词文件类型:docx),解压缩后我找到了一些文件夹。word文件夹包含文档本身,位于文件document.xml

于 2008-09-22T17:22:10.097 回答
16

在此示例中,“Course Outline.docx”是一个 Word 2007 文档,其中包含单词“Windows”,并且不包含短语“random other string”。

>>> import zipfile
>>> z = zipfile.ZipFile("Course Outline.docx")
>>> "Windows" in z.read("word/document.xml")
True
>>> "random other string" in z.read("word/document.xml")
False
>>> z.close()

基本上,您只需使用zipfile打开 docx 文件(这是一个 zip 存档),然后在 'word' 文件夹中的 'document.xml' 文件中找到内容。如果您想要更复杂,则可以解析 XML,但如果您只是在寻找一个短语(您知道它不会是标签),那么您可以在 XML 中查找字符串。

于 2008-09-22T23:12:59.630 回答
16

在 Word 文档 XML 文件中搜索的一个问题是文本可以在任何字符处拆分为元素。如果格式不同,它肯定会被拆分,例如在 Hello World中。但它可以在任何时候拆分,这在 OOXML 中是有效的。因此,即使在短语中间格式没有改变,您最终也会像这样处理 XML!

<w:p w:rsidR="00C07F31" w:rsidRDefault="003F6D7A">

<w:r w:rsidRPr="003F6D7A">

<w:rPr>

<w:b /> 

</w:rPr>

<w:t>Hello</w:t> 

</w:r>

<w:r>

<w:t xml:space="preserve">World.</w:t> 

</w:r>

</w:p>

您当然可以将其加载到 XML DOM 树中(不确定这将在 Python 中是什么)并要求仅将文本作为字符串获取,但您最终可能会因为 OOXML 规范而出现许多其他“死胡同” 6000 页长,MS Word 可以写出很多你意想不到的“东西”。因此,您最终可以编写自己的文档处理库。

或者您可以尝试使用Aspose.Words

它以 .NET 和 Java 产品的形式提供。两者都可以从 Python 中使用。一个通过 COM 互操作,另一个通过 JPype。请参阅 Aspose.Words 程序员指南,在其他编程语言中使用 Aspose.Words(抱歉,我不能发布第二个链接,stackoverflow 还没有让我这样做)。

于 2009-11-15T11:01:08.003 回答
5

您可以使用docx2txt获取 docx 中的文本,而不是在该 txt 中搜索

npm install -g docx2txt
docx2txt input.docx # This will  print the text to stdout
于 2014-12-09T10:51:23.733 回答
4

docx 只是一个 zip 存档,里面有很多文件。也许你可以看看那些文件的一些内容?除此之外,您可能必须找到一个理解单词格式的库,以便您可以过滤掉您不感兴趣的内容。

第二种选择是与 word 互操作并通过它进行搜索。

于 2008-09-22T17:16:43.417 回答
2

docx 文件本质上是一个 zip 文件,其中包含一个 xml。
xml 包含格式,但它也包含文本。

于 2008-09-22T17:17:15.037 回答
1

OLE 自动化可能是最简单的。您必须考虑格式化,因为 XML 中的文本可能如下所示:

<b>Looking <i>for</i> this <u>phrase</u>

使用简单的文本扫描没有简单的方法可以找到它。

于 2008-09-22T23:03:32.773 回答
0

您应该能够使用 MSWord ActiveX 界面提取要搜索的文本(或者,可能进行搜索)。我不知道你如何从 Python 访问 ActiveX。

于 2008-09-22T17:17:26.347 回答
0

您也可以考虑使用来自OpenXMLDeveloper.org的库

于 2008-10-18T19:34:32.707 回答