0

我正在使用一个大约有 150000 行和 25 列的数据集。数据由数值变量和因子变量组成。因子变量既是文本又是数字,我需要它们。因变量是一个有 20 个水平的因子。我正在尝试使用kernlabR 中的包构建模型并将其输入到 SVM 中。

library(kernlab)
n<- nrow(x)
trainInd<- sort(sample(1:nrow(x), n*.8))
xtrain<- x[trainInd,]
xtest<- x[-trainInd,]
ytrain<- y[trainInd]
ytest<- y[-trainInd]
modelclass<- ksvm(x=as.matrix(xtrain), y=as.matrix(ytrain),
              scaled = TRUE, type="C-svc", kernel = "rbfdot",
              kpar="automatic", C=1, cross=0) 

按照代码,我收到此错误:

Error in if (any(co)) { : missing value where TRUE/FALSE needed
In addition: Warning messages:
1: In FUN(newX[, i], ...) : NAs introduced by coercion

xtrain数据框如下所示:

Length    Gender    Age    Day    Hour     Duration    Period
  5         1       80      5      11         20          3
 0.2        2       35      2      18         10          5    
 1.1        2       55      1      15         120         4

Gender、Day 和 Period 变量是分类变量(因子),其余变量是数字变量。

我经历了类似的问题,也经历了我的数据集,但我无法识别任何 NA 值或其他错误。

我假设我在变量类型上做错了什么,特别是因素。我不确定如何使用它们,但我看不出有什么问题。任何有关如何解决错误以及可能如何将因子与数值变量一起建模的帮助将不胜感激。

4

2 回答 2

0

此错误消息的原因是 kernlab 和 e1071 的 svm 实现无法处理数据类型因子的特征。

解决方案是通过 one-hot-encoding 转换作为因子的预测变量。那么有两种情况:

案例一:公式界面

one-hot-encoding 是通过使用隐式完成的train(form = formula, ...)

案例 2:x,y 界面

使用 format 时train(x = features, y = target, data = dataset, ...),必须显式执行 one-hot-encoding!

一个简单的方法是: features = model.matrix(features)

于 2019-08-28T17:58:24.877 回答
0

e1071我在 R 中使用 package 时遇到了同样的问题。我解决了它,将所有变量更改为numeric而不是factor,除了决策变量 ( y),它可以是因子(用于分类任务)或数字(用于回归)。

参考:

CRAN 包“e1071”

于 2017-12-08T18:52:04.963 回答