1

我在 R 中使用包。对于函数接收arulesSequences的数据类型,文档太少了。read_baskets我猜数据应该是文本(.txt)格式。列名是:“sequenceID”、“eventID”、“SIZE”和“items”。我的数据大约有 200,000 行,在 z.txt 文件中如下所示:

1,1364,3,{12,17,19}
1,1130,4,{14,17,21,23}
1,1173,3,{19,23,9}
1,98,5,{14,15,2,21,5}
2,1878,4,{1,10,14,3}
2,1878,13,{1,12,14,15,16,17,18,19,2,21,24,25,5}
2,1878,1,{2}

我尝试使用:

x <- read_baskets("z.txt", sep = ",",info =c("sequenceID","eventID","SIZE"))
s <- cspade(x,parameter = list(support = 0.001),control = list(verbose = 
TRUE),tmpdir = tempdir())

但我收到此错误:

makebin(数据,文件)中的错误:“sid”无效

4

2 回答 2

1

sequenceID 和 eventID 的组合必须是唯一的。

否则,您将收到以下错误之一:

  • makebin(数据,文件)中的错误:“sid”无效
  • makebin(数据,文件)中的错误:“eid”无效

这进一步意味着 .txt 文件中的项目(每个 sequenceID、eventID 组合)必须位于同一行,并且(可能)使用与 .txt 文件的其余部分相同的分隔符进行分隔。因此,项目列应该是最后一列。

希望这可以帮助!

于 2019-02-16T09:03:01.350 回答
0

好的,我发现了问题,我将其发布,以防有​​人遇到同样的问题。问题在于 SequenceID 和 eventID(第一列和第二列必须按块排序。包中提到了这一点,但我只订购了第一列。

于 2015-07-22T21:14:49.113 回答