我正在寻找在文档语料库中查找词性模式的工具。我正在使用斯坦福 NLP 工具对我的文档进行 POS 标记。现在我想查询这些标记的文档并找到一些特定的 POS 模式,例如
NP是JJ (例如:电影不错)
或JJ NP (例如:优秀的鹅肝)
有没有一种工具可以简单有效地为我完成这项工作,还是我需要自己编写?
我正在寻找在文档语料库中查找词性模式的工具。我正在使用斯坦福 NLP 工具对我的文档进行 POS 标记。现在我想查询这些标记的文档并找到一些特定的 POS 模式,例如
NP是JJ (例如:电影不错)
或JJ NP (例如:优秀的鹅肝)
有没有一种工具可以简单有效地为我完成这项工作,还是我需要自己编写?
从斯坦福 CoreNLP,您还可以使用 TokensRegex 匹配令牌列表中的模式:http: //nlp.stanford.edu/software/tokensregex.shtml
例如,您的两种模式将类似于:
[{tag:NN}] [{word:is}] [{tag:JJ}]
[{标签:JJ}] [{标签:NN}]
(旁注,但 NP 不是 POS 标签。很可能,真的,你想要的是 [{tag:/N.*/}] 和 [{lemma:be}] 来捕捉更广泛的案例)。
需要考虑的一种工具是 Corpus Workbench:http ://cwb.sourceforge.net/