9

我是神经网络的新手,我对使用 nnet 包进行分类有疑问。

我的数据是数字和分类变量的混合。我想通过使用 nnet 和函数调用来进行输赢预测,例如

nnet(WL~., data=training, size=10) 

但这与我使用仅具有变量数字版本的数据框(即将所有因子转换为数字(我的预测 WL 除外))的结果不同。

有人可以向我解释这里发生了什么吗?我猜 nnet 正在解释不同的变量,但我想了解正在发生的事情。我很欣赏没有任何数据来重现问题的困难,但我只是在看一个关于如何使用 nnet 拟合神经网络的高级解释。我在任何地方都找不到这个。非常感谢。

str(training)
'data.frame':   1346 obs. of  9 variables:
 $ WL                   : Factor w/ 2 levels "win","lose": 2 2 1 1 NA 1 1 2 2 2 ...
 $ team.rank            : int  17 19 19 18 17 16 15 14 14 16 ...
 $ opponent.rank        : int  14 12 36 16 12 30 11 38 27 31 ...
 $ HA                   : Factor w/ 2 levels "A","H": 1 1 2 2 2 2 2 1 1 2 ...
 $ comp.stage           : Factor w/ 3 levels "final","KO","league": 3 3 3 3 3 3 3 3 3 3 ...
 $ days.since.last.match: num  132 9 5 7 14 7 7 7 14 7 ...
 $ days.to.next.match   : num  9 5 7 14 7 9 7 9 7 8 ...
 $ comp.last.match      : Factor w/ 5 levels "Anglo-Welsh Cup",..: 5 5 5 5 5 5 3 5 3 5 ...
 $ comp.next.match      : Factor w/ 4 levels "Anglo-Welsh Cup",..: 4 4 4 4 4 3 4 3 4 3 ...

对比

str(training.nnet)
'data.frame':   1346 obs. of  9 variables:
 $ WL                   : Factor w/ 2 levels "win","lose": 2 2 1 1 NA 1 1 2 2 2 ...
 $ team.rank            : int  17 19 19 18 17 16 15 14 14 16 ...
 $ opponent.rank        : int  14 12 36 16 12 30 11 38 27 31 ...
 $ HA                   : num  1 1 2 2 2 2 2 1 1 2 ...
 $ comp.stage           : num  3 3 3 3 3 3 3 3 3 3 ...
 $ days.since.last.match: num  132 9 5 7 14 7 7 7 14 7 ...
 $ days.to.next.match   : num  9 5 7 14 7 9 7 9 7 8 ...
 $ comp.last.match      : num  5 5 5 5 5 5 3 5 3 5 ...
 $ comp.next.match      : num  4 4 4 4 4 3 4 3 4 3 ...
4

1 回答 1

13

您正在寻找的差异可以用一个非常小的例子来解释:

fit.factors <- nnet(y ~ x, data.frame(y=c('W', 'L', 'W'), x=c('1', '2' , '3')), size=1)
fit.factors
# a 2-1-1 network with 5 weights
# inputs: x2 x3 
# output(s): y 
# options were - entropy fitting 

fit.numeric <- nnet(y ~ x, data.frame(y=c('W', 'L', 'W'), x=c(1, 2, 3)), size=1)
fit.numeric
# a 1-1-1 network with 4 weights
# inputs: x 
# output(s): y 
# options were - entropy fitting 

在 R 中拟合模型时,因子变量实际上被分成几个指标/虚拟变量

因此,一个因子变量x = c('1', '2', '3')实际上被分成三个变量:x1x2x3,其中一个保存值1,而其他保存值0。此外,由于这些因素是穷尽的,所以, , 中的{1, 2, 3}一个(并且只有一个)必须是一个。因此,变量, ,不是独立的,因为。所以我们可以删除第一个变量,只保留模型中的和的值,并得出结论,如果两者都是和,则水平是。x1x2x3x1x2x3x1 + x2 + x3 = 1x1x2x31x2 == 0x2 == 0

这就是您在nnet; 的输出中看到的内容。当x是一个因子时,神经网络实际上有length(levels(x)) - 1 输入,如果x是一个数字,那么神经网络只有一个输入x

大多数 R 回归函数(nnetrandomForestglmgbm等)在内部执行从因子水平到虚拟变量的映射,作为用户不需要知道它。


现在应该清楚使用factors带有. 如果您转换为,那么您是:numbersfactorsnumbers

  1. 丢失每个级别的独特属性并量化它们之间的差异。
  2. 执行级别之间的排序

这确实会产生一个稍微简单的模型(变量更少,因为我们不需要dummy每个级别的变量),但通常不是正确的做法。

于 2013-11-16T12:18:35.450 回答