你知道我在哪里可以找到源代码(任何语言)来编写基于概率模型的信息检索系统吗?
我尝试在网上搜索,找到了一个名为bm25或bmf25的算法,但我不知道它是否有用。
基本上我试图比较 3 种 IR 算法的性能:向量空间模型、布尔模型和概率模型。现在我找到了向量空间和布尔模型。根据结果,我们需要利用最好的结果来开发问答系统
提前致谢
你知道我在哪里可以找到源代码(任何语言)来编写基于概率模型的信息检索系统吗?
我尝试在网上搜索,找到了一个名为bm25或bmf25的算法,但我不知道它是否有用。
基本上我试图比较 3 种 IR 算法的性能:向量空间模型、布尔模型和概率模型。现在我找到了向量空间和布尔模型。根据结果,我们需要利用最好的结果来开发问答系统
提前致谢
如果您正在寻找实现了 BM25 的 IR 引擎,您可以尝试Terrier IR Platform
语言是Java。您可以使用引擎本身,也可以查看源代码以实现 BM25 或其他术语加权模型。
这里的困惑是有几个概率 IR 模型(例如 2-Poisson、二进制独立模型、语言建模变体),所以这个问题是模棱两可的。但根据我的经验,当人们说“概率模型”时,他们通常指的是由 Robertson 和 Sparch-Jones 提出的二元独立模型的一些变体。BM25(相当粗略)近似于这个模型,这就是我在这种情况下使用的。Lemur Toolkit 中包含 BM25 的规范实现。看:
http://www.lemurproject.org/doxygen/lemur/html/OkapiRetMethod_8hpp-source.html