我有一些 txt 文件,我需要将其转换为 CRF 模型的 IOB 格式。
使用 nltk tree2conlltags 我可以将标记化的、贴过标签的文本转换为我需要的 IOB 格式。
像这样
("u'Is", 'JJ', u'O')
('Miami', 'NNP', u'B-PERSON')
('playing', 'NN', u'O')
('in', 'IN', u'O')
('Washigthon', 'NNP', u'B-GPE')
('this', 'DT', u'O')
('month', 'NN', u'O')
('?', '.', u'O')
但问题是,作为输出,我得到一个单词作为一个元素,但我需要一个句子作为元素。
我也尝试首先将文本分成句子,然后将它们标记化,所以我将保存句子 boundAries,但 nltk pos tagger 不接受列表类型数据。
也许有全新的方法来获得我需要的格式或