2

我正在寻找在文档语料库中查找词性模式的工具。我正在使用斯坦福 NLP 工具对我的文档进行 POS 标记。现在我想查询这些标记的文档并找到一些特定的 POS 模式,例如

NPJJ (例如:电影不错)

JJ NP (例如:优秀的鹅肝)

有没有一种工具可以简单有效地为我完成这项工作,还是我需要自己编写?

4

2 回答 2

2

从斯坦福 CoreNLP,您还可以使用 TokensRegex 匹配令牌列表中的模式:http: //nlp.stanford.edu/software/tokensregex.shtml

例如,您的两种模式将类似于:

[{tag:NN}] [{word:is}] [{tag:JJ}]

[{标签:JJ}] [{标签:NN}]

(旁注,但 NP 不是 POS 标签。很可能,真的,你想要的是 [{tag:/N.*/}] 和 [{lemma:be}] 来捕捉更广泛的案例)。

于 2015-04-08T09:05:40.850 回答
1

需要考虑的一种工具是 Corpus Workbench:http ://cwb.sourceforge.net/

于 2015-04-07T18:16:01.660 回答