0

我正面临在 C# .Net 中通过大量阿拉伯语内容文档(PDF 和 Doc 文件)进行文本搜索的问题。

经过大量搜索,我想出了2个解决方案,

首先,Lucene.Net和我面临以下问题

1- 与 Lucene.Net 一起使用的阿拉伯语分析器并找到了这个,还不知道它是否会工作!

2- 从文档中提取文本(大约 6000 个 PDF 和 Doc 文件)并找到我将在 ikvm 的帮助下在 .Net 中使用的 Tika。但是,鉴于此解决方案可行,我不知道性能会如何。

其次,我和 Xapian 转移到这个解决方案以利用 omega 库,但仍然发现了一些问题

1- xapian 是否可以在阿拉伯语上下文中使用,或者它也需要一个阿拉伯语分析器,如果需要,我将如何解决这个问题

事实上,对于阿拉伯语内容和几乎大量的数据,我无法决定使用哪种解决方案。

非常感谢任何帮助或建议,

谢谢,

萨默

4

1 回答 1

0

如果你想使用 nLucene,你必须创建阿拉伯语分析器,但我使用Solr并且它在阿拉伯语中可以正常工作。检查这个主题

于 2011-07-14T07:01:08.523 回答