我有一个包含超过 250,000 个观察值的大型数据集,我想使用该TraMineR
包进行分析。特别是,我想使用命令seqtree
和seqdist
,例如,当我使用 10,000 个观测值的子样本时,它可以正常工作。我的计算机可以管理的限制是大约 20,000 个观测值。
我想使用所有的观察结果,而且我确实可以使用一台能够做到这一点的超级计算机。但是,这并没有多大帮助,因为该过程仅在单个内核上运行。因此我的问题是,是否可以将并行计算技术应用于上述命令?还是有其他方法可以加快这个过程?任何帮助,将不胜感激!