0

我一直在 R 中使用 liblinear 来解决作者归属问题,并尝试了 LOO 交叉验证,仅使用 liblinear 中的 cross 参数(类似:)LiblineaR(data=mydata, labels=factor(mydata[,1]), cost=co, cross=nrow(mydata)并实际迭代所有行,以便我可以看到哪些文本有被错误分类或其他:

for (i in 1:nrow(data)){
x = data[,2:ncol(data)]
y = factor(data[,1])

xTrain = x[-i,]
xTest = x[i,]
yTrain = y[-i]
yTest = y[i]

m=LiblineaR(data=xTrain, labels=yTrain, cost=co)
p=predict(m, xTest)}

似乎我应该从这两种方法中得到相同的结果,但是对于我的一些数据集,第一个版本比第二个版本给了我更好的结果——例如,96% 的准确率与 50% 的准确率(所有作品都归类为同一作者)。有没有人处理过这种事情?

4

0 回答 0