我正面临在 C# .Net 中通过大量阿拉伯语内容文档(PDF 和 Doc 文件)进行文本搜索的问题。
经过大量搜索,我想出了2个解决方案,
首先,Lucene.Net和我面临以下问题
1- 与 Lucene.Net 一起使用的阿拉伯语分析器并找到了这个,还不知道它是否会工作!
2- 从文档中提取文本(大约 6000 个 PDF 和 Doc 文件)并找到我将在 ikvm 的帮助下在 .Net 中使用的 Tika。但是,鉴于此解决方案可行,我不知道性能会如何。
其次,我和 Xapian 转移到这个解决方案以利用 omega 库,但仍然发现了一些问题
1- xapian 是否可以在阿拉伯语上下文中使用,或者它也需要一个阿拉伯语分析器,如果需要,我将如何解决这个问题
事实上,对于阿拉伯语内容和几乎大量的数据,我无法决定使用哪种解决方案。
非常感谢任何帮助或建议,
谢谢,
萨默