Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我在 stanbol 中配置了一个增强链,包括 tika、语言检测、自定义命名实体识别器和 OpenNLP 句子检测器。
我显然得到了 NER 和 lang-detect 输出,但 setence 检测引擎似乎可以工作。
我在这里错过了什么吗?
您应该使用 opennlp-token,而不是使用 opennlp-sentence。句子检测是无用的,因为用于训练模型的模型只是被标记化(当然也用实体标记)。在输出中,您永远不会看到输入是如何被标记化(或分割成句子)的,但它会向您展示它从哪里推断出输出数据的上下文。