r - 使用 arulesSequences 包：makebin 中的错误（数据，文件）：“sid”无效

Question

我在 R 中使用包。对于函数接收arulesSequences的数据类型，文档太少了。read_baskets我猜数据应该是文本（.txt）格式。列名是：“sequenceID”、“eventID”、“SIZE”和“items”。我的数据大约有 200,000 行，在 z.txt 文件中如下所示：

1,1364,3,{12,17,19}
1,1130,4,{14,17,21,23}
1,1173,3,{19,23,9}
1,98,5,{14,15,2,21,5}
2,1878,4,{1,10,14,3}
2,1878,13,{1,12,14,15,16,17,18,19,2,21,24,25,5}
2,1878,1,{2}

我尝试使用：

x <- read_baskets("z.txt", sep = ",",info =c("sequenceID","eventID","SIZE"))
s <- cspade(x,parameter = list(support = 0.001),control = list(verbose = 
TRUE),tmpdir = tempdir())

但我收到此错误：

makebin（数据，文件）中的错误：“sid”无效

score 1 · Accepted Answer

sequenceID 和 eventID 的组合必须是唯一的。

否则，您将收到以下错误之一：

makebin（数据，文件）中的错误：“sid”无效
makebin（数据，文件）中的错误：“eid”无效

这进一步意味着 .txt 文件中的项目（每个 sequenceID、eventID 组合）必须位于同一行，并且（可能）使用与 .txt 文件的其余部分相同的分隔符进行分隔。因此，项目列应该是最后一列。

希望这可以帮助！

score 0 · Accepted Answer

好的，我发现了问题，我将其发布，以防有人遇到同样的问题。问题在于 SequenceID 和 eventID（第一列和第二列必须按块排序。包中提到了这一点，但我只订购了第一列。

r - 使用 arulesSequences 包：makebin 中的错误（数据，文件）：“sid”无效

2 回答 2

Related

Reference