我有一个如下所示的数据集:
featureDict = {identifier1: [[first 3-gram], [second 3-gram], ... [last 3-gram]],
...
identifierN: [[first 3-gram], [second 3-gram], ... [last 3-gram]]}
另外,我对同一组文档有一个标签字典:
labelDict = {identifier1: label1,
...
identifierN: labelN}
我想找出最合适的 nltk 容器,我可以在其中将这些信息存储在一个地方并无缝应用 nltk 分类器。
此外,在我对这个数据集使用任何分类器之前,我还想在这个特征空间上使用一个 tf-idf 过滤器。
参考资料和文档会有所帮助。