例如,在这个给定的数据集中,我想获得每个变量的最佳值,这将产生一个预设的“百分比”值:例如,我需要“百分比”的值 >=0.7所以在这个结果应该是这样的:
birds >=5,1<wolfs<=3 , 2<=snakes <=4
示例数据集:
dat <- read.table(text = "birds wolfs snakes percentage
3 8 7 0.50
1 2 3 0.33
5 1 1 0.66
6 3 2 0.80
5 2 4 0.74",header = TRUE
我无法使用决策树,因为我的数据框很大,而且我无法正确查看所有树。我尝试了这个*arules*
包,但它要求所有变量都是因子,我混合了因子、逻辑和连续变量的数据集,我想保留变量并且自变量继续。我还需要“百分比”变量作为只有一个我想优化。*arules*
我用包写的代码是这样的:
library(arules)
dat$birds<-as.factor(dat$birds)
dat$wolfs<-as.factor(dat$wolfs)
dat$snakes<-as.factor(dat$snakes)
dat$percentage<-as.factor(dat$percentage)
rules<-apriori(dat, parameter = list(minlen=2, supp=0.005, conf=0.8))
谢谢