我目前正在尝试从 .ppt 和 .pptx 文件中提取文本。我成功地使用 python-pptx 来处理 .pptx 文件,但根据其文档,“来自 PowerPoint 2003 及更早版本的 .ppt 文件将不起作用。”
使用这行代码创建演示项目时:
`prs = Presentation("Filepath\\presentation.ppt")`
我收到以下错误:
`Traceback (most recent call last):
...shortened for brevity....
KeyError: "no relationship of type 'http://schemas.openxmlformats.org/officeDocument/2006/relationships/officeDocument' in collection"`
我认为发生此错误是因为 python-pptx 无法处理 .ppt 文件。我试图通过三种方式来纠正这种情况:
- 我想使用
.save()
与 python-pptx 关联的函数,但我必须制作一个演示项目才能做到这一点。我不能这样做,因为我必须首先使用无法处理 .ppt 文件的 python-pptx。 - 利用
os.rename(src, dst)
- 这没有用。重命名文件与“另存为”不同,因此会使文件损坏。
我
win32com
以前打开 PowerPoint 应用程序,打开 .ppt 文件,然后将文件另存为 .pptx,然后关闭文件和应用程序。- 这种方法有效,但它真的很“笨拙”。(见下面的代码。)
Application = win32com.client.Dispatch("PowerPoint.Application") Application.Visible = True Presentation = Application.Presentations.Open("Filepath\\presentation.ppt") Presentation.Saveas("Filepath\\presentation.pptx") Presentation.Close() Application.Quit()
我向社区提出的问题是,是否有更复杂或更优雅的方式来解决我的困境。我的困境是我希望能够从 .ppt 文件中解析文本,而 python-pptx 不处理这些文件类型。