我正在使用 TreeTagger ( http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ ) 从文本中提取名词。我的问题是输出格式如下:
word pos lemma
The DT the
TreeTagger NP TreeTagger
is VBZ be
easy JJ easy
to TO to
use VB use
显然没有选项只能获得名词(“NP”和“NN”)。使用 bash,如何获取第一列中第二列中包含“NP”或“NN”的单元格?