0

我正在构建一个问答系统,为了加快进程,我希望 IR 系统从可能包含该问题答案的语料库中返回一组文档(我的 NLP 算法将尝试从全文)。

由于我使用的是 Python,因此 Whoosh 似乎是一个不错的选择,但我很难用纯布尔查询以外的方法进行搜索,这些方法不适合问答。我想要一个与字符串查询具有高 TF-IDF 相似性的文档列表。

我想输入:

“谁是美国总统?”

并获得最相似的文档,但我只是去掉了停用词:

“总统或美国或美国”

准确性不适用于 QA 流程。谁能指出一些方法或高级 API 方法以非布尔方式获取顶级文档?我愿意尝试其他库,但大多数库似乎很难与 Python 快速交互,我希望有一些超级简单的东西,这样我就可以继续专注于自然语言组件。

4

0 回答 0