2

可能重复:
从python中的MS word文件中提取文本

我想用python中的脚本解析(为了使用表达式执行搜索)一个.doc文件。它在unix机器上运行。

任何人都可以帮忙吗?

4

2 回答 2

3

你可以看看这个项目:python-docx。下载完库后,就可以python example-extracttext.py docfile.docx textfile.txt | grep some-expression在shell中运行了。当然,您还可以在必要时在 python 代码中进行更复杂的搜索。

python-docx 的缺点是它目前只支持 ms-Word 2007/2008,如果你担心的话,我推荐antiword,它支持 Microsoft Word 版本 2、6、7、97、2000、2002 和 2003。其实我已经一直在我的vimrc中使用它,以便能够在 VIM 编辑器中查看 ms-word 文件。虽然它不是 python 脚本,但可以很容易地从 Python 调用它。

于 2013-01-29T14:04:23.570 回答
3

你可以使用,PyUno

样本,

# HelloWorld python script for the scripting framework

def HelloWorldPython( ):
    """Prints the string 'Hello World(in Python)' into the current document"""
#get the doc from the scripting context which is made available to all scripts
    model = XSCRIPTCONTEXT.getDocument()
#get the XText interface
    text = model.Text
#create an XTextRange at the end of the document
    tRange = text.End
#and set the string
    tRange.String = "Hello World (in Python)"
    return None

其他,PyUNO 示例

于 2013-01-29T14:04:44.297 回答