1

我正在寻找一种从 excel/word/ppt 文件中提取文本的简单方法。目标是在 whoosh 中对内容进行索引,以便使用 haystack 进行搜索。

有一些像 xlrd 和 pandas 这样的包适用于 excel,但它们远远超出了我的需要,而且我不确定它们实际上是否会直接从框中打印单元格的未格式化文本内容。

有人知道解决这个问题的简单方法吗?我的猜测是 ms office 文件必须是 xml 形的。

谢谢!

一个。

4

1 回答 1

2

我之前已经“手动”完成了这项工作——事实证明,.(doc|ppt|xls)x 文件只是 zip 文件,其中包含包含所有内容的 .xml 文件。因此,zipfile如果您找不到更好的工具,您可以使用您最喜欢的 xml 解析器来读取内容。

于 2013-10-21T17:21:44.493 回答