有没有一种方法可以创建语料库而不必在文件中包含项目。例如,我想操纵从网络上抓取的推文或段落。我可以做类似的事情吗
myCorpus = MyCorpus([
('id', 'item', 'category'),
('id', 'item', 'category'),
('id', 'item', 'category'),
... ])
或者
myCorpus.add('id', 'item', 'category')
目的是使用现有的 NLTK 功能来操作语料库。我检查TextCollection
过,但似乎它不处理类别。