我有一个数据集,其中包含用户在网站上的文本字段中编写的文本。由于网站的性质,大多数用户在该领域多次写作。现在我想看看是否有模式。例如,在某个时间写“A”的用户将在以后写“B”。
经过一番谷歌搜索后,我发现TraMineR
这是一个用于这种分析的库。但似乎TraMineR
和/或 R 设置了状态数的最大值。这是真的还是我做错了什么?解决我的问题的最佳方法是什么?
关于我的数据集的更多信息:
- 有超过一百万条文本输入日志
- 大约 90000 个不同的用户
- 大约 80000 个不同的输入(事件/状态?)
要创建我的数据的状态序列对象,我需要使用seqe2stm()
from TraMineRextras
(如此处所述),其中 my 的数量events
超过 80000。运行该函数会给我错误:
矩阵中的错误(TRUE,nrow = nbstate,ncol = nevent):
无效的“nrow”值(太大或 NA)
此外:警告消息:
在矩阵中(TRUE,nrow = nbstate,ncol = nevent):
强制引入的 NA到整数范围