r - csv 读取数据集的“类变量需要成为一个因素”错误

Question

我希望离散化机器学习数据集中的连续特征，特别是使用有监督的离散化。事实证明r [为此有一个包/方法] 1，太棒了！但由于我不精通 RI，因此存在一些问题，如果您能提供帮助，我将不胜感激。

我收到一个错误

类变量需要是一个因素。

我在网上看了一个例子，他们似乎没有这个问题，但我有。请注意，我不太了解语法 V2 ~ .，除此之外V2应该是列名。

library(caret)
library(Rcpp)
library(arulesCBA)

filename <- "wine.data"
dataset <- read.csv(filename, header=FALSE)
dataset2 <- discretizeDF.supervised(V2 ~ ., dataset, method = "mdlp")

R 报告以下错误：

.parseformula(formula, data) 中的错误：类变量必须是一个因素！

您可以在此处找到数据集 wine.data：https://pastebin.com/hvDbEtMN discretizeDF.supervised的第一个参数是一个公式，这似乎是问题所在。

请帮忙！先感谢您。

score 1 · Accepted Answer

正如小插图中所写，这是为了实现：

几种将连续变量转换为适用于关联规则挖掘和构建关联分类器的分类变量（因子）的监督方法。

如果您查看您的 V2 列，它是连续的：

test = read.csv("wine_dataset.txt",header=FALSE)
str(test)
'data.frame':   178 obs. of  14 variables:
 $ V1 : int  1 1 1 1 1 1 1 1 1 1 ...
 $ V2 : num  14.2 13.2 13.2 14.4 13.2 ...
 $ V3 : num  1.71 1.78 2.36 1.95 2.59 1.76 1.87 2.15 1.64 1.35 ...

您需要的是一个分类目标，以便算法可以找到合适的方法来离散化它以找到关联。例如：

#this cuts V2 into 4 categories according to where they fall in the range
test$V2 = factor(cut(test$V2,4,labels=1:4))
dataset2 <- discretizeDF.supervised(V2 ~ ., dataset, method = "mdlp")

以上是绕开的一种方法，但你需要想办法把V2切好。如果您需要将目标用作连续，那么您可以使用discretizeDFfrom arules，而且我还看到您的第一列仅是 1,2,3：

test = read.csv("wine_dataset.txt",header=FALSE)
test2 = data.frame(test[,1:2],discretizeDF(test[,-c(1:2)]))

r - csv 读取数据集的“类变量需要成为一个因素”错误

1 回答 1

Related

Reference