c# - Xapian vs Lucene.Net - 阿拉伯语文档文本搜索

Question

我正面临在 C# .Net 中通过大量阿拉伯语内容文档（PDF 和 Doc 文件）进行文本搜索的问题。

经过大量搜索，我想出了2个解决方案，

首先，Lucene.Net和我面临以下问题

1- 与 Lucene.Net 一起使用的阿拉伯语分析器并找到了这个，还不知道它是否会工作！

2- 从文档中提取文本（大约 6000 个 PDF 和 Doc 文件）并找到我将在 ikvm 的帮助下在 .Net 中使用的 Tika。但是，鉴于此解决方案可行，我不知道性能会如何。

其次，我和 Xapian 转移到这个解决方案以利用 omega 库，但仍然发现了一些问题

1- xapian 是否可以在阿拉伯语上下文中使用，或者它也需要一个阿拉伯语分析器，如果需要，我将如何解决这个问题

事实上，对于阿拉伯语内容和几乎大量的数据，我无法决定使用哪种解决方案。

非常感谢任何帮助或建议，

谢谢，

萨默

score 0 · Accepted Answer

如果你想使用 nLucene，你必须创建阿拉伯语分析器，但我使用Solr并且它在阿拉伯语中可以正常工作。检查这个主题

1 回答 1