我正在为我的一个项目试验 apache Open NLP,我的要求是从电子邮件内容中检测名词并检查我们的客户数据库(该数据库由个人姓名、组织名称等组成,我的搜索引擎是 Solr 库)。
对于普通的英语名词,默认训练模型可以正常工作(对于大多数情况),但一个棘手的要求是,我们有一个带有 OK、LET 等缩写的业务组织,因此在少数情况下我需要考虑 OK、LET 等作为名词。
例如 1) “寄一些物品给 LET,请注意延迟付款” 2) “让我们去参加派对吧”
在#1中,我想将LET视为名词,而在#2中,LET不是名词。
如果我能达到这个要求,我可以在我的搜索引擎中减少大量的误报匹配。
非常感谢任何帮助。