我正在寻找一些示例代码,演示如何使用 Lucene.Net 和 C# 索引 PDF 文档。谷歌出现了一些,但没有一个对我有帮助。
问问题
8339 次
2 回答
6
据我了解,Lucene 仅限于创建索引和搜索该索引。由应用程序来处理打开文件并为索引提取它们的内容。因此,如果您要搜索 PDF 文档,您将需要使用iTextSharp之类的工具来打开文件,提取内容,然后将其传递给 Lucene 进行索引。在Dimecasts.net网站上有一些使用 Lucene 的良好示例。
于 2010-01-08T17:10:08.753 回答
2
StringBuilder stringBuilder = new StringBuilder();
PdfReader pdfReader = new PdfReader(byte[] of the .pdf);
for (int page = 1; page <= pdfReader.NumberOfPages; page++)
{
stringBuilder.Append(PdfTextExtractor.GetTextFromPage(pdfReader, page) + " ");
}
(使用 iTextSharp)
其余的没有那么简洁地说明。
我网站上的产品演示中有代码展示了如何使用 lucene.net 代码,但是在这里发布有点长。
这是与我的产品有关的代码:https ://svn.arachnode.net/svn/arachnodenet/trunk/Plugins/CrawlActions/ManageLuceneDotNetIndexes.cs 用户名/密码:Public
于 2012-09-17T16:19:06.183 回答