对这些系统的性能进行一般估计是不可能/不合理的。正如您所说,在您的测试数据上,准确性会下降。这有几个原因,一个是您的文档的语言特征,另一个是您希望看到的注释的特征。对于每个 NER 任务,Afaik 都有相似但仍然不同的注释指南。
话虽如此,关于您的问题:
ANNIE 是我能找到的唯一一个免费的开源基于规则的 Java NER 系统。它是为新闻文章而写的,我猜它是为 MUC 6 任务而调整的。这对概念证明很有用,但有点过时了。主要优点是您可以在没有任何机器学习、nlp 或一点 java 知识的情况下开始改进它。只需研究 JAPE 并试一试。
OpenNLP、Stanford NLP 等默认带有新闻文章模型,并且性能(仅查看结果,从未在大型语料库上测试它们)比 ANNIE 更好。比起 OpenNLP,我更喜欢斯坦福解析器,我还是只看文档,主要是新闻文章。
在不知道你的文件是什么样子的情况下,我真的不能说更多。您应该决定您的数据是否适合规则,或者您采用机器学习方式并使用 OpenNLP 或斯坦福解析器或伊利诺伊标记器或其他任何东西。斯坦福解析器似乎更适合仅倾倒您的数据、训练和产生结果,而 OpenNLP 似乎更适合尝试不同的算法、使用参数等。
对于您在 UIMA 上的 GATE 争议,我尝试了这两种方法,并为 GATE 找到了更多病毒社区和更好的文档。不好意思发表个人意见:)