这是设置:
班数:1806
训练数据长度为 61499
特征数量为 40473(目前这些是布尔值,尽管在某些时候可能会改变)
平均而言,每个训练数据的行中有大约 10 个 1,因此有 40463 个 0(我使用的是 scipy 的稀疏矩阵)。
我尝试了各种学习算法(linearsvc 获得了最好的性能,sgdclassifier 似乎是最有效的,性能仅略低于 linearsvc),以及一些降维(pca,svd),但我怀疑有些东西我设置矩阵的方式错了吗?(或者也许有更好的方法,因为当类/特征/数据显着减少时,这种方法确实有效)
任何想法都非常感谢。
(编辑:还尝试了 sgdclassifier 的 .partial_fit(),即使有两个调用也需要很长时间,所以我没有让它完成)