我正在尝试使用约 300 页的 odt 文档。我知道如何在 python 中加载文档,至少以基本方式。这对 odt 不起作用(它不是 txt 文件)。我对此进行了研究并安装了 odfpy 库,尽管它似乎没有很好的文档记录。我能够让它达到我拥有它的数组的程度。但我不知道如何尝试在多个数组条目中使用正则表达式。所以我试着用“str()”把它转换成一个字符串,我得到的只是一长串地址。
我希望能够加载一个 odt 文档并运行一个正则表达式来从中删除某个模式。我该怎么做……?到目前为止,我一直在尝试的方法不起作用。我想保持 odt 的结构完好无损。我更习惯txt。
import sys
import re
from odf.opendocument import load
from odf import text, teletype
infile = load(r'C:\Users\Iainc\Documents\Blah Blah.odt')
allparas = infile.getElementsByType(text.P)
stringallparas = str(allparas)
这是,到目前为止,我所拥有的,我相信,是成功的。但是某些适用于 .txt 的东西不起作用。