0

我正在尝试使用arulesR 中的包查找关联规则。我正在使用 csv 文件来创建事务对象。我得到一个不正确的项目集。这是数据的样子

137,lidocaine
138,pregabalin
139,esomeprazole,nadolol,atorvastatin
140,hydromorphone
141,ondansetron,enoxaparin,metoclopramide
142,fluticasone
143,trandolapril,amlodipine,fluticasone,esomeprazole
144,meloxicam
145,lidocaine
146,atorvastatin
147,fluticasone
here is the R code I am using
library("arules")
txn <- read.transactions("basket.csv", rm.duplicates= TRUE,format="basket",sep=",",cols =1);
txn@itemInfo
The item list I am getting has repeated items
labels
1       amlodipine
2    atorvastatin"
3       enoxaparin
4     esomeprazole
5    esomeprazole"
6      fluticasone
7     fluticasone"
8   hydromorphone"
9       lidocaine"
10      meloxicam"
11 metoclopramide"
12         nadolol
13     ondansetron
14     pregabalin"
15    trandolapril

如果您查看第 4 和 5 项,它们是相同的,但由于引号而被视为不同,第 6 和 7 项的情况类似。

有没有办法解决这个问题或发生这种情况的任何原因?

4

1 回答 1

0

我不熟悉R工具,但我是一名AI学生,我对关联规则有所了解。

我认为这与您的数据文件有关。如果您记下您的项目列表,您将看到位于数据文件行尾的每个项目在项目列表中都带有引号,反之亦然。

所以这些项目出现两次的原因是它们在日期文件中出现了一次在行尾,另一次出现在行中间。

重复我不熟悉R工具,但我认为一个简单的更正,例如在所有数据文件行的末尾添加一个空格将解决这个问题。

于 2014-07-25T20:26:29.347 回答