3

有没有一种方法可以创建语料库而不必在文件中包含项目。例如,我想操纵从网络上抓取的推文或段落。我可以做类似的事情吗

myCorpus = MyCorpus([
    ('id', 'item', 'category'), 
    ('id', 'item', 'category'),
    ('id', 'item', 'category'), 
    ... ])

或者

myCorpus.add('id', 'item', 'category')

目的是使用现有的 NLTK 功能来操作语料库。我检查TextCollection过,但似乎它不处理类别。

4

1 回答 1

-1

为什么不直接将字符串写入一个或多个文件,然后将它们作为语料库进行处理?

于 2010-12-29T18:33:56.760 回答