可能重复:
从python中的MS word文件中提取文本
我想用python中的脚本解析(为了使用表达式执行搜索)一个.doc文件。它在unix机器上运行。
任何人都可以帮忙吗?
你可以看看这个项目:python-docx。下载完库后,就可以python example-extracttext.py docfile.docx textfile.txt | grep some-expression
在shell中运行了。当然,您还可以在必要时在 python 代码中进行更复杂的搜索。
python-docx 的缺点是它目前只支持 ms-Word 2007/2008,如果你担心的话,我推荐antiword,它支持 Microsoft Word 版本 2、6、7、97、2000、2002 和 2003。其实我已经一直在我的vimrc中使用它,以便能够在 VIM 编辑器中查看 ms-word 文件。虽然它不是 python 脚本,但可以很容易地从 Python 调用它。
你可以使用,PyUno
样本,
# HelloWorld python script for the scripting framework
def HelloWorldPython( ):
"""Prints the string 'Hello World(in Python)' into the current document"""
#get the doc from the scripting context which is made available to all scripts
model = XSCRIPTCONTEXT.getDocument()
#get the XText interface
text = model.Text
#create an XTextRange at the end of the document
tRange = text.End
#and set the string
tRange.String = "Hello World (in Python)"
return None
其他,PyUNO 示例