0

所以,我知道在 R 中,您可以以这种形式为逻辑回归提供数据:

model <- glm( cbind(count_1, count_0) ~ [features] ..., family = 'binomial' )

cbind(count_1, count_0)有没有办法用 sklearn.linear_model.LogisticRegression做类似的事情?还是我实际上必须提供所有这些重复的行?(我的特征是分类的,所以会有很多冗余。)

4

1 回答 1

0

如果它们是分类的 - 你应该提供它的二进制版本。我不知道 R 中的代码是如何工作的,但是您应该始终对分类特征进行二值化。因为您必须强调您的特征的每个值都与另一个无关,即对于可能值为 1、2、3、4 的特征“blood_type”,您的分类器必须知道 2 与 3 无关,而 4 与在任何意义上都与 1 相关。这些是通过二值化来实现的。

如果二值化后的特征太多 - 您可以通过 FeatureHasher 或更复杂的方法(如 PCA)来降低二值化数据集的维度。

于 2016-04-21T02:47:45.950 回答