我正在使用 GATE(基于 Java 的 NLP 框架)并希望找到与字典部分匹配的单词。例如,我有一个包含以下术语的疾病词典
Congestive cardiac failure
Congestive Heart Failure
Colon Cancer
.
.
.
Thousands of more terms
假设我有"Father had cardiac failure last year"
这个字符串中的字符串,我想将“心脏衰竭”识别为部分匹配,因为它作为字典中某个术语的一部分出现。
我在 Python、JS 和 C# 中看到过一些关于类似主题的讨论,但我不确定在这种情况下有什么帮助。我想知道我是否可以在这里使用 Aho-Corrasick。