r - 在 R 中从平面的 5 列 data.frame 中设置 4-D 列联表，具有 3 个因素

Question

我在R中有一个数据框。前两列是“是”和“否”的总和频率。最后 3 列是分类因子，每列都有一个标签。

我正在尝试用这种格式制作一个 4-D 列联表，但我不知道从哪里开始这个过程。

我的数据如下所示：

    Sold    Unsold  Label1                   Label2                 Label3
1   3330    32102   AdvancedShopper: Y       TERR_USED: Non-TREE    SPINOFF: N
2   2735    30691   HSEHLD_INCDT_BAND: 0     CLM_FREE_INCDT_CT: 0   SPINOFF: N
3   3350    29485   TERR_USED: Non-TREE      CLM_FREE_INCDT_CT: 0   SPINOFF: N
4   3864    28657   SingleMulti: N           TERR_USED: Non-TREE    SPINOFF: N
5   2691    26355   TERR_USED: Non-TREE      HSEHLD_INCDT_BAND: 0   CLM_FREE_INCDT_CT: 0
6   2396    25884   TERR_USED: Non-TREE      HSEHLD_INCDT_BAND: 0   SPINOFF: N
7   2738    25172   Channel: Owned Agency    TERR_USED: Non-TREE    SPINOFF: N
8   3203    24425   TERR_USED: Non-TREE      FULL_CVG_FLG: Y        SPINOFF: N
9   2781    24163   SingleMulti: N           CLM_FREE_INCDT_CT: 0   SPINOFF: N
10  1950    22371   AdvancedShopper: Y       CLM_FREE_INCDT_CT: 0   SPINOFF: N
11  2644    21528   TERR_USED: Non-TREE      FULL_CVG_FLG: N        SPINOFF: N
12  2278    21736   Channel: Owned Agency    SingleMulti: N         SPINOFF: N
13  2324    21648   SingleMulti: N           HSEHLD_INCDT_BAND: 0   CLM_FREE_INCDT_CT: 0
14  3108    20780   Channel: Prudent         TERR_USED: Non-TREE    SPINOFF: N
15  2491    21216   TERR_USED: Non-TREE      PRIOR_BI: High         SPINOFF: N

我从 8 列开始：3 个类别 + 每个类别的 3 个值 + (1) 写入的报价数量，以及 (1) 这些报价的销售数量 = 8。我将各自的类别和值字符串连接起来形成上面的三列. 我有 19 个类别，每个类别都有自己的属性数量，介于 2 和 6 之间。排序会将各个列按顺序排列，但不一定形成 3 个类别的每个组合的 4-D 框和相应的 Yes (Sold) 和没有（未售出）。平均销售率为 11.4%，我想确定频率，以便对这些四向意外事件进行 Chi2 测试，以确定从均值中产生最强异常值的组合。我有 80046 种组合，基本上（19 种选择 3），这三种选择中的每一种都有各自的桶，

我不确定如何将这些数据转换为一种格式以开始使用table()andxtabs()函数，从而使用chi2.test. （我应该回到连接类别和值之前的步骤吗？）

我是 R 新手，但我知道它应该更擅长为这些大型数组编程。我无法访问 SPSS，但如果有更容易尝试的东西，我可以访问 SAS（也是新的）...

任何方向都是很大的帮助。

------------------- 想要的输出？回复 --------- 好吧，该table命令需要一个 data.frame 来自

Category 1       Category 2       Category 3       Y/N

...变成列联表格式，对吗？但是我已经有了频率格式的“是”和“否”，其中列出了三个类别。

我是否需要更改为这种单实例格式并将我的 80046 行表分解为数百万行？table或者有没有办法使用已经在两列中列出的 Yes 和 No 的频率来启动命令？

score 0 · Accepted Answer

在这种情况下，您可以创建一个变量，该变量给出 Yes 超过 Yes+No 的百分比：查看这是否适合您（假设您的数据是样本）。

mytab <- xtabs((100*Sold/(Sold+Unsold))~Label1+Label2+Label3, data=sample)

  > mytab
, , Label3 = CLM_FREE_INCDT_CT: 0

                       Label2
Label1                  CLM_FREE_INCDT_CT: 0 FULL_CVG_FLG: N FULL_CVG_FLG: Y HSEHLD_INCDT_BAND: 0 PRIOR_BI: High SingleMulti: N
  AdvancedShopper: Y                0.000000        0.000000        0.000000             0.000000       0.000000       0.000000
  Channel: Owned Agency             0.000000        0.000000        0.000000             0.000000       0.000000       0.000000
  Channel: Prudent                  0.000000        0.000000        0.000000             0.000000       0.000000       0.000000
  HSEHLD_INCDT_BAND: 0              0.000000        0.000000        0.000000             0.000000       0.000000       0.000000
  SingleMulti: N                    0.000000        0.000000        0.000000             9.694644       0.000000       0.000000
  TERR_USED: Non-TREE               0.000000        0.000000        0.000000             9.264615       0.000000       0.000000
                       Label2
Label1                  TERR_USED: Non-TREE
  AdvancedShopper: Y               0.000000
  Channel: Owned Agency            0.000000
  Channel: Prudent                 0.000000
  HSEHLD_INCDT_BAND: 0             0.000000
  SingleMulti: N                   0.000000
  TERR_USED: Non-TREE              0.000000

, , Label3 = SPINOFF: N

                       Label2
Label1                  CLM_FREE_INCDT_CT: 0 FULL_CVG_FLG: N FULL_CVG_FLG: Y HSEHLD_INCDT_BAND: 0 PRIOR_BI: High SingleMulti: N
  AdvancedShopper: Y                8.017762        0.000000        0.000000             0.000000       0.000000       0.000000
  Channel: Owned Agency             0.000000        0.000000        0.000000             0.000000       0.000000       9.486133
  Channel: Prudent                  0.000000        0.000000        0.000000             0.000000       0.000000       0.000000
  HSEHLD_INCDT_BAND: 0              8.182253        0.000000        0.000000             0.000000       0.000000       0.000000
  SingleMulti: N                   10.321407        0.000000        0.000000             0.000000       0.000000       0.000000
  TERR_USED: Non-TREE              10.202528       10.938276       11.593311             8.472419      10.507445       0.000000
                       Label2
Label1                  TERR_USED: Non-TREE
  AdvancedShopper: Y               9.398284
  Channel: Owned Agency            9.810104
  Channel: Prudent                13.010717
  HSEHLD_INCDT_BAND: 0             0.000000
  SingleMulti: N                  11.881553
  TERR_USED: Non-TREE              0.000000

Call: xtabs(formula = (100 * Sold/(Sold + Unsold)) ~ Label1 + Label2 + 
    Label3, data = l)
Number of cases in table: 150.7815 
Number of factors: 3 
Test for independence of all factors:
    Chisq = 412.2, df = 71, p-value = 1.48e-49
    Chi-squared approximation may be incorrect

r - 在 R 中从平面的 5 列 data.frame 中设置 4-D 列联表，具有 3 个因素

1 回答 1

Related

Reference