2

我正在使用 R 的r2dtable函数来生成具有给定边际的列联表。但是,当检查结果表时,值看起来有点过于集中到中点。例子:

set.seed(1)
matrices <- r2dtable(1e4, c(100, 100), c(100, 100))
vec.vals <- vapply(matrices, function(x) x[1, 1], numeric(1))

> table(vec.vals)
vec.vals
  36   37   38   39   40   41   42   43   44   45   46   47   48   49   50   51 
   1    1    1    7   25   49  105  182  268  440  596  719  954 1072 1152 1048 
  52   53   54   55   56   57   58   59   60   61   62 
1022  775  573  404  290  156   83   50   19    6    2

因此,在 10,000 次模拟中,最小的左上角值为 36,最大值为 62。

有没有办法实现稍微不那么集中的矩阵?

4

2 回答 2

2

您需要考虑到任何给定的随机抽奖的左上角值为 35 的可能性极小。1e4 次尝试可能不足以实现这样的事件。看看理论预测(今天早上 Rhelp 列表上的 P. Dalgaard 提供。):

 round(dhyper(0:100,100,100,100)*1e4)
  [1]    0    0    0    0    0    0    0    0    0    0    0    0    0    0    0    0    0
 [18]    0    0    0    0    0    0    0    0    0    0    0    0    0    0    0    0    0
 [35]    0    0    0    1    4    9   21   45   88  160  269  417  596  787  959 1081 1124
 [52] 1081  959  787  596  417  269  160   88   45   21    9    4    1    0    0    0    0
 [69]    0    0    0    0    0    0    0    0    0    0    0    0    0    0    0    0    0
 [86]    0    0    0    0    0    0    0    0    0    0    0    0    0    0    0    0

如果增加抽奖次数,单个值 1 的概率“变宽”:

vec.vals <- vapply(matrices, function(x) x[1, 1], numeric(1)); table(vec.vals)
vec.vals
    33     34     35     36     37     38     39     40     41     42     43     44     45 
     1      3      8     47    141    359    864   2148   4515   8946  15928  27013  41736 
    46     47     48     49     50     51     52     53     54     55     56     57     58 
 59558  78717  96153 108322 112524 107585  96042  78054  60019  41556  26848  16134   8627 
    59     60     61     62     63     64     65     66     68 
  4580   2092    933    351    138     42     11      4      1 

...正如预测的那样:

round(dhyper(0:100,100,100,100)*1e6)
  [1]      0      0      0      0      0      0      0      0      0      0      0      0
 [13]      0      0      0      0      0      0      0      0      0      0      0      0
 [25]      0      0      0      0      0      0      0      0      0      1      4     13
 [37]     43    129    355    897   2087   4469   8819  16045  26927  41700  59614  78694
 [49]  95943 108050 112416 108050  95943  78694  59614  41700  26927  16045   8819   4469
 [61]   2087    897    355    129     43     13      4      1      0      0      0      0
 [73]      0      0      0      0      0      0      0      0      0      0      0      0
 [85]      0      0      0      0      0      0      0      0      0      0      0      0
 [97]      0      0      0      0      0
于 2017-08-25T17:25:21.647 回答
1

要获得不那么集中的矩阵,您必须在列/行数、总数和矩阵数之间找到平衡。考虑以下集合:

m2rep <- r2dtable(1e4, rep(100,2), rep(100,2))
m2seq <- r2dtable(1e4, seq(50,100,50), seq(50,100,50))

这给出了唯一值数量的差异:

> length(unique(unlist(m2rep)))
[1] 29
> length(unique(unlist(m2seq)))
[1] 58

用以下方式绘制:

par(mfrow = c(1,2))
plot(table(unlist(m2rep)))
plot(table(unlist(m2seq)))

给出:

在此处输入图像描述

现在考虑:

m20rep <- r2dtable(1e4, rep(100,20), rep(100,20))
m20seq <- r2dtable(1e4, seq(50,1000,50), seq(50,1000,50))

这使:

> length(unique(unlist(m20rep)))
[1] 20
> length(unique(unlist(m20seq)))
[1] 130

用以下方式绘制:

par(mfrow = c(1,2))
plot(table(unlist(m20rep)))
plot(table(unlist(m20seq)))

给出:

在此处输入图像描述

如您所见,使用参数会有所帮助。

HTH

于 2016-05-18T21:16:11.093 回答