我正在寻找一种从 excel/word/ppt 文件中提取文本的简单方法。目标是在 whoosh 中对内容进行索引,以便使用 haystack 进行搜索。
有一些像 xlrd 和 pandas 这样的包适用于 excel,但它们远远超出了我的需要,而且我不确定它们实际上是否会直接从框中打印单元格的未格式化文本内容。
有人知道解决这个问题的简单方法吗?我的猜测是 ms office 文件必须是 xml 形的。
谢谢!
一个。
我正在寻找一种从 excel/word/ppt 文件中提取文本的简单方法。目标是在 whoosh 中对内容进行索引,以便使用 haystack 进行搜索。
有一些像 xlrd 和 pandas 这样的包适用于 excel,但它们远远超出了我的需要,而且我不确定它们实际上是否会直接从框中打印单元格的未格式化文本内容。
有人知道解决这个问题的简单方法吗?我的猜测是 ms office 文件必须是 xml 形的。
谢谢!
一个。