0

斯坦福命名实体识别包附带的演示文件显示了对句子进行分类的示例。输出选项是字符串,例如:

"I eat apples with Michael and Jordan on mondays" 

=>

 "I eat apples with <PERSON>Michael</PERSON> and 
<PERSON>Jordan</PERSON> on <DATE>mondays</DATE>"

或每个单词的分类图。

有没有一种方法可以将分类图返回到实体列表?

例如:

{
  PERSON : ["Michael", "Peter"]
  DATE : ["mondays"]
}
4

1 回答 1

0

这是一个最小的 bash 脚本,它将作为后处理执行此操作:

echo "I eat apples with <PERSON>Michael</PERSON> and <PERSON>Jordan</PERSON> on <DATE>mondays</DATE>"
| grep -Eo '<([^>/]*)>[^<]*'
| awk -F '>' '{nes[$1]=nes[$1]","$2;} END {for(t in nes) print tolower(t)":{"nes[t]"}";}'
| sed 's/:{,/:{/' | tr -d '<'

使用它,您将获得与您的示例一样的列表:

date:{mondays}
person:{Michael,Jordan}

您可能想要处理多个条目(“uniq”或计算它们?)。

于 2014-06-26T20:24:30.493 回答