R中有没有办法计算序列中状态共现的模式,即在元素顺序不一定重要的组上工作?目的是找出更大的子组在更长的组中的出现有多普遍。
例如,输入数据集将是这样的(“真实”数据序列的宽度可达约 10 列,深度可达 1000 行)......
a,b,c,d
b,c,d,a
c,d,b,a
a,b,c,d,e
b,c,d,a,e
a,b,c
...
结果可能会显示...
abcd, abcd*
作为一个集合或类,用一个计数来表示出现的次数,例如 * 表示一个子集或“其他地方的成员资格”类别和基于 的分数length()
。
结果还会显示...
abcde
作为一个不同且稍微稀有的集合或类别,分数越高反映的时间越长length()
。
最后...
abc*
计数分数会更高,但length()
分数会更低。
像 Traminer 这样适用于无序(无序?)组的东西会很棒。我注意到计算负载可能存在问题,但如果我需要刻意编写程序,我会考虑这一点(即某种琐碎阈值)。