我在R中有一个数据框。前两列是“是”和“否”的总和频率。最后 3 列是分类因子,每列都有一个标签。
我正在尝试用这种格式制作一个 4-D 列联表,但我不知道从哪里开始这个过程。
我的数据如下所示:
Sold Unsold Label1 Label2 Label3
1 3330 32102 AdvancedShopper: Y TERR_USED: Non-TREE SPINOFF: N
2 2735 30691 HSEHLD_INCDT_BAND: 0 CLM_FREE_INCDT_CT: 0 SPINOFF: N
3 3350 29485 TERR_USED: Non-TREE CLM_FREE_INCDT_CT: 0 SPINOFF: N
4 3864 28657 SingleMulti: N TERR_USED: Non-TREE SPINOFF: N
5 2691 26355 TERR_USED: Non-TREE HSEHLD_INCDT_BAND: 0 CLM_FREE_INCDT_CT: 0
6 2396 25884 TERR_USED: Non-TREE HSEHLD_INCDT_BAND: 0 SPINOFF: N
7 2738 25172 Channel: Owned Agency TERR_USED: Non-TREE SPINOFF: N
8 3203 24425 TERR_USED: Non-TREE FULL_CVG_FLG: Y SPINOFF: N
9 2781 24163 SingleMulti: N CLM_FREE_INCDT_CT: 0 SPINOFF: N
10 1950 22371 AdvancedShopper: Y CLM_FREE_INCDT_CT: 0 SPINOFF: N
11 2644 21528 TERR_USED: Non-TREE FULL_CVG_FLG: N SPINOFF: N
12 2278 21736 Channel: Owned Agency SingleMulti: N SPINOFF: N
13 2324 21648 SingleMulti: N HSEHLD_INCDT_BAND: 0 CLM_FREE_INCDT_CT: 0
14 3108 20780 Channel: Prudent TERR_USED: Non-TREE SPINOFF: N
15 2491 21216 TERR_USED: Non-TREE PRIOR_BI: High SPINOFF: N
我从 8 列开始:3 个类别 + 每个类别的 3 个值 + (1) 写入的报价数量,以及 (1) 这些报价的销售数量 = 8。我将各自的类别和值字符串连接起来形成上面的三列. 我有 19 个类别,每个类别都有自己的属性数量,介于 2 和 6 之间。排序会将各个列按顺序排列,但不一定形成 3 个类别的每个组合的 4-D 框和相应的 Yes (Sold) 和没有(未售出)。平均销售率为 11.4%,我想确定频率,以便对这些四向意外事件进行 Chi2 测试,以确定从均值中产生最强异常值的组合。我有 80046 种组合,基本上(19 种选择 3),这三种选择中的每一种都有各自的桶,
我不确定如何将这些数据转换为一种格式以开始使用table()
andxtabs()
函数,从而使用chi2.test
. (我应该回到连接类别和值之前的步骤吗?)
我是 R 新手,但我知道它应该更擅长为这些大型数组编程。我无法访问 SPSS,但如果有更容易尝试的东西,我可以访问 SAS(也是新的)...
任何方向都是很大的帮助。
------------------- 想要的输出?回复 --------- 好吧,该table
命令需要一个 data.frame 来自
Category 1 Category 2 Category 3 Y/N
...变成列联表格式,对吗?但是我已经有了频率格式的“是”和“否”,其中列出了三个类别。
我是否需要更改为这种单实例格式并将我的 80046 行表分解为数百万行?table
或者有没有办法使用已经在两列中列出的 Yes 和 No 的频率来启动命令?