0

可能重复:
如何在 lucene 中索引 pdf、ppt、xl 文件(基于 java 或 python 或 php 中的任何一个都可以)?

我需要在文件夹中的文件集合中搜索一个字符串,包括 pdf、docx、txt 格式。是否可以使用 lucene.net 搜索字符串。

请提供一些对此有帮助的参考资料..

感谢你..

4

1 回答 1

5

您需要提取各种文件(pdf、docx、txt)的文本并将该文本插入到 Lucene 索引中。Lucene 无法从各种文档格式中读取文本

一般搜索“extract {document format} text in .net”,你会发现很多资源。

于 2012-05-09T07:42:34.833 回答