0

我被 Solr 和 NLP 弄湿了。我在另一个问题中问过如何将所有名词存储在 Solr 中。但现在,我意识到这将是第二步。第一个要解决的问题是,Lucene 已经有了分词器。在进行 POS 标记时,我们必须先进行标记化。是否可以在 Morph Adorner(或 Open NLP)中使用 Lucene 的令牌来生成 POS 标签?如果是这样,问题来了,我如何将这些 POS 标签存储在 solr index 中?

4

1 回答 1

0

您绝对可以在 OpenNLP 中使用不同的分词器——OpenNLP 的 API 文档非常简单地展示了如何做到这一点。但是,更大的问题是用于标记 POS 的标记化需要与用于训练 POS 标记器的标记化相同,这意味着您不能使用预构建的 OpenNLP POS 模型。最后,Lucene 的分词器可能是一种不同的分词器——它可能会做出与您想要用于语言理解的假设不同的假设(因为它的目标是信息检索)。

于 2013-11-14T17:10:46.690 回答