我正在尝试使用 sklearn 0.11 的 LogisticRegression 对象来拟合具有大约 80,000 个特征的 200,000 个观察值的模型。目标是将短文本描述分类为 800 个类别中的 1 个。
当我尝试拟合分类器时,pythonw.exe 给了我:
应用程序错误“...处的指令引用了 0x00000000 处的内存”。内存无法写入”。
这些特征非常稀疏,每次观察大约 10 个,并且是二进制的(1 或 0),所以通过我的信封计算,我的 4 GB RAM 应该能够处理内存需求,但这似乎并不就是这样。只有当我使用较少的观察和/或较少的特征时,这些模型才适合。
如果有的话,我想使用更多的观察和特征。我天真的理解是,在幕后运行的 liblinear 库能够支持这一点。关于如何挤进更多观察的任何想法?
我的代码如下所示:
y_vectorizer = LabelVectorizer(y) # my custom vectorizer for labels
y = y_vectorizer.fit_transform(y)
x_vectorizer = CountVectorizer(binary = True, analyzer = features)
x = x_vectorizer.fit_transform(x)
clf = LogisticRegression()
clf.fit(x, y)
我传递给分析器的 features() 函数只返回一个字符串列表,指示在每个观察中检测到的特征。
我正在使用 Python 2.7、sklearn 0.11、具有 4 GB RAM 的 Windows XP。