NLTK 包含“棕色”数据集,其中包含不同类型的所有数据......
cfd = nltk.ConditionalFreqDist(
(genre, word)
for genre in brown.categories()
for word in brown.words(categories=genre))
genres = ['news', 'religion', 'hobbies', 'science_fiction', 'romance', 'humor']
modals = ['can', 'could', 'may', 'might', 'must', 'will']
cfd.tabulate(conditions=genres, samples=modals)
问题是,棕色恰好是 nltk 内置的数据集,具有方便的类别方法,但我不知道输入数据的结构。
如果我有自己的数据,我想利用 COnditionalFreqDist 函数,比如 50 个文档,每个文档都有自己的“流派/类别”,我如何能够以函数可用的方式格式化这些数据?它应该在每个流派的 csv 或单独的 csv 中,每行包含一个文档吗?如何格式化输入?一个小数据集的例子会很棒。
如果这可以通过数据库连接而不是平面文件来完成,那将是一个加号。