1

我正在使用 TreeTagger ( http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ ) 从文本中提取名词。我的问题是输出格式如下:

word    pos     lemma

The     DT      the 
TreeTagger      NP      TreeTagger 
is      VBZ     be 
easy    JJ      easy 
to      TO      to 
use     VB      use 

显然没有选项只能获得名词(“NP”和“NN”)。使用 bash,如何获取第一列中第二列中包含“NP”或“NN”的单元格?

4

1 回答 1

2

您可以为此使用 awk:

awk '$2 ~ /^N[PN]$/{print $1}' file

TreeTagger

正则表达式/^N[PN]$/将匹配NPNN

正如@Cyrus 在下面正确评论的那样,您可以在正则表达式中使用交替:

awk '$2 ~ /^(NP|NN)$/ {print $1}' file
于 2017-02-07T15:35:50.470 回答