3

我有一个以篮子数据格式制作的数据集。我已经使用包调用arules在 R 中读取了该数据集,该包调用具有用于读取事务的内置函数,因此我使用了它并读取了我的数据集。以下是我使用的代码:

trans = read.transactions("C:/Users/HARI/Desktop/Graph_mining/transactional_data_v3.csv", format = "basket", sep=",",rm.duplicates=TRUE)
inspect(trans[1:5])
  items                  
1 {,                     
   ANTIVERT,             
   SOFTCLIX}             
2 {,                     
   CEFADROXIL,           
   ESTROGEN}             
3 {,                     
   BENZAMYCIN,           
   BETAMETH,             
   KEFLEX,               
   PERCOCET}             
4 {,                     
   ACCUTANE(RXPAK;10X10),
   BENZAMYCIN}           
5 {,                     
   ALBUTEROL,            
   BUTISOLSODIUM,        
   CLARITIN,             
   NASACORTAQ}

如您所见,当我使用inspect(trans)它时,它会显示每个交易都有一个空列。我的问题是如何删除那些空列?

完整dputtrans对象,请看这个链接

4

2 回答 2

4

我想我已经找到了解决您问题的方法。我拿了你的 csv 文件,在 Excel 中打开它,并用 NA 替换了所有空单元格。然后我将整个内容粘贴到 LibreOffice Calc 中并将其保存回 csv,指定所有单元格都应使用双引号(奇怪的是,Excel 不会这样做,除非使用 vba 宏。您可以直接在 LibreOffice 中读取文件但是,在 Excel 中,用 NA 替换空单元格将永远耗时)。然后:

trans <- read.table("d:/downloads/transactional_data_2.csv", sep=",", stringsAsFactors = TRUE, na.strings="NA", header=TRUE)
trans2 <- as(trans, "transactions")
inspect(trans2[1:5])

结果

inspect(trans[1:5])

  items                      transactionID
1 {X1=SOFTCLIX,                           
   X2=ANTIVERT}                          1
2 {X1=ESTROGEN,                           
   X2=CEFADROXIL}                        2
3 {X1=KEFLEX,                             
   X2=BETAMETH,                           
   X3=PERCOCET,                           
   X4=BENZAMYCIN}                        3
4 {X1=BENZAMYCIN,                         
   X2=ACCUTANE(RXPAK;10X10)}             4
5 {X1=CLARITIN,                           
   X2=ALBUTEROL,                          
   X3=NASACORTAQ,                         
   X4=BUTISOLSODIUM}                     5

我想这就是你正在寻找的结果......?

于 2015-03-25T04:43:11.557 回答
2

我对 arules 包不是很熟悉。我最好的猜测是使用以下方式读取数据read.csv,然后转换为事务格式,而不是使用提供的read.transactions

tran2 <- read.csv("downloads/transactional_data.csv")
tran3 <- as(tran2, "transactions")

编辑:我相信您的数据中的空白没有被正确读取;此外,还有一些重复项也应该被过滤掉。这应该解决这个问题。您将需要该reshape2软件包。

trans2 <- read.csv("downloads/transactional_data.csv", na.strings="", stringsAsFactors=FALSE )
trans2$id <- seq(nrow(trans2))
t2.long <- melt(trans2, id.vars="id")
t2.long$variable <- NULL
t3 <- as(lapply(split(t2.long$value, t2.long$id), unique), "transactions")
于 2015-03-24T18:59:12.297 回答