首先,我昨天开始使用 python。我正在尝试使用 SciKit 和大型数据集(250.000 条推文)进行文本分类。对于该算法,每条推文都将表示为 4000 x 1 向量,因此这意味着输入是 250.000 行和 4000 列。当我尝试在 python 中构建它时,我在 8500 条推文后内存不足(使用列表并附加它时),当我预分配内存时,我得到了错误:MemoryError
(np.zeros(4000,2500000))。SciKit 不能处理这些大型数据集吗?我做错了什么(因为这是我使用 python 的第二天)?是否有另一种表示特征的方式,以便它适合我的记忆?
编辑:我想要伯努利 NB
编辑2:也许在线学习是可能的?阅读一条推文,让模型使用这条推文,将其从内存中删除,阅读另一个,让模型学习......但我认为 Bernoulli NB 不允许在 scikit-learn 中进行在线学习