假设我有一些table
(或dataset
)对象,在其变量A
中包含一些因素X
(具有n 个不同的值或“级别”)。还假设我有一些自定义聚合函数agg
,它将一系列行作为输入,并返回一个汇总数字(又名“聚合”)作为输出。
统计数据分析中一个极其A
常见的操作示例是根据X
因子的值对行进行分组,并将其应用于agg
由组中的行组成的数组。这种操作的结果应该是一个新的table
(或dataset
,取决于 的类A
),具有n行和两个变量。这些变量中的第一个应该命名为X
,并且应该包含因子 in的n 个不同值,第二个应该有一些合适的(最好是用户指定的)名称,并且应该包含应用于行组的结果相应的级别。X
A
agg
X
正如我所说,这是在 MATLABtable
和dataset
对象等数据结构上执行的非常标准的操作,所以我期待有一种内置的方法可以做到这一点,但我没有找到它。
例如,让我们A
定义如下:
% "data" table
A = cell2table({
'even', 'red', 'spades', 38, 0.9837;
'even', 'red', 'hearts', 19, 0.5695;
'even', 'red', 'diamonds', 89, 0.2629;
'even', 'red', 'diamonds', 98, 0.3578;
'even', 'red', 'diamonds', 92, 0.2596;
'even', 'red', 'diamonds', 69, 0.5751;
'even', 'red', 'diamonds', 77, 0.6318;
'even', 'yellow', 'clubs', 22, 0.6917;
'even', 'green', 'spades', 35, 0.6674;
'even', 'green', 'hearts', 67, 0.7896;
'even', 'green', 'hearts', 49, 0.5025;
'even', 'green', 'hearts', 64, 0.5318;
'odd', 'red', 'spades', 22, 0.5587;
'odd', 'red', 'hearts', 51, 0.9122;
'odd', 'red', 'diamonds', 74, 0.3343;
'odd', 'red', 'diamonds', 69, 0.2911;
'odd', 'yellow', 'spades', 33, 0.2653;
'odd', 'yellow', 'spades', 38, 0.2549;
'odd', 'yellow', 'diamonds', 1, 0.2064;
'odd', 'yellow', 'diamonds', 25, 0.8257;
'odd', 'green', 'spades', 64, 0.4348;
'odd', 'green', 'hearts', 59, 0.8644;
'odd', 'green', 'hearts', 4, 0.6374;
'odd', 'green', 'hearts', 11, 0.3354
}, 'VariableNames', ...
{'Parity', 'TrafficLight', 'Suit', 'order', 'prevalence'});
另外,让X
beTrafficLight
和agg
be
agg = @(t) size(t, 1);
(当然,我在agg
这里使用它只是为了使示例尽可能简单。在实践agg
中会远不那么简单。)
group_aggregate
我正在考虑的典型函数通常将聚合函数、计算聚合的输出中列的名称、a table
(或dataset
)以及一个或多个要分组的变量的名称作为输入参数(以某种顺序)经过。因此,在此示例中,对此类函数的调用及其输出将如下所示
>> group_aggregate(agg, 'nrows', A, {'TrafficLight'})
ans =
TrafficLight nrows
____________ _____
'green' 8
'red' 11
'yellow' 5
顺便说一句,为了得到上面的结果,我变出了这只绝望的小野兽:
>> tmp = cellfun(@(s) {s agg(A(strcmp(A.TrafficLight, s), :))}, ...
unique(A.TrafficLight), 'un', 0);
>> cell2table(cat(1, tmp{:}), 'VariableNames', {'TrafficLight' 'nrows'})
我希望内置解决方案对例如X
变量的不同类型的值等更健壮。