0

我有一个数据集,其中包含用户在网站上的文本字段中编写的文本。由于网站的性质,大多数用户在该领域多次写作。现在我想看看是否有模式。例如,在某个时间写“A”的用户将在以后写“B”。

经过一番谷歌搜索后,我发现TraMineR这是一个用于这种分析的库。但似乎TraMineR和/或 R 设置了状态数的最大值。这是真的还是我做错了什么?解决我的问题的最佳方法是什么?

关于我的数据集的更多信息:

  • 有超过一百万条文本输入日志
  • 大约 90000 个不同的用户
  • 大约 80000 个不同的输入(事件/状态?)

要创建我的数据的状态序列对象,我需要使用seqe2stm()from TraMineRextras(如此处所述),其中 my 的数量events超过 80000。运行该函数会给我错误:

矩阵中的错误(TRUE,nrow = nbstate,ncol = nevent):
无效的“nrow”值(太大或 NA)
此外:警告消息:
在矩阵中(TRUE,nrow = nbstate,ncol = nevent):
强制引入的 NA到整数范围

4

0 回答 0