我需要执行命名实体识别/分类,并以 IOB 标记格式生成输出。
我正在使用由NLTK-train library提供的 NLTK 分块器,但这会产生一个树,而不是 IOB 标签列表。
def chunk_iob(list_of_words):
nltk_tagger = nltk.data.load("taggers/conll2002_aubt.pickle")
nltk_chunker = nltk.data.load("chunkers/conll2002_NaiveBayes.pickle")
t = nltk_tagger.tag(list_of_words)
print(t)
c = nltk_chunker.parse(t)
print(c)
我们得到 c 作为一棵树,比如:
(S
(LOC Barcelona/NC)
(PER Juan/NC :/Fd)
...
但我正在寻找类似的东西:
Barcelona - LOC
Juan - PER
...
这是 list_of_words 参数的 IOB 标记列表,与 list_of_words 的顺序相同。
如何从树中获取该标记列表?