1

我正在尝试从 arules 包中运行 apriori 并遇到内存问题。到目前为止,我可以读取数据并将其拆分为正确的格式以进行篮子分析,但是当我尝试将数据转换为事务类型时,由于大小(大约 800,000 行)而出现错误。

是否有任何软件包可以帮助我处理这些数据的大小?

as((split(first2$Product,f = first2$Transaction_Id)),"transactions")

我已经坚持了大约一个星期了,所以任何建议都将不胜感激。

4

1 回答 1

0

这取决于您拥有多少项目(列)以及数据的稀疏程度(每个事务的项目)。arules 中的先验实现要求所有事务都驻留在主内存中。如果您可以读取数据但 as(data, "transactions") 失败,那么您可以尝试直接从包 Matrix 创建一个稀疏的 ngCMatrix 并使用它来创建一个 itemMatrix(这基本上就是事务)。

R> class? ngCMatrix
R> class? itemMatrix
R> class? transactions

不幸的是,这有点痛苦。

于 2015-08-21T16:31:33.670 回答