我正在使用 R 处理药物和反应的大型数据集。目前,我将数据结构化为一个非常高的数据框,其中列出了报告 ID 号、药物名称和报告的反应。如您所知,ID 与药物以及药物与反应之间存在一对多的关系。
请记住,这个数据集比我可以在这里复制的要大得多,我想知道如何找到哪些药物对会导致哪些反应以及频率如何。
最重要的是,我对如何处理这样的问题很感兴趣。数据结构是否正确?我应该阅读哪些概念或库?
这是一些真实数据的链接:https ://www.dropbox.com/s/kzx4mpyytbo9zil/query_result.csv
ID DRUG REACTION
1 1827 ASPIRIN CHEST PAIN
2 1827 CLARINEX CHEST PAIN
3 1827 ASPIRIN COUGH
4 1827 CLARINEX COUGH
5 1827 ASPIRIN HAEMOGLOBIN DECREASED
6 1827 CLARINEX HAEMOGLOBIN DECREASED
7 1827 ASPIRIN NEUTROPHIL COUNT INCREASED
8 1827 CLARINEX NEUTROPHIL COUNT INCREASED
9 1827 ASPIRIN PHARYNGOLARYNGEAL PAIN
10 1827 CLARINEX PHARYNGOLARYNGEAL PAIN
...
在我小小的大脑中,最终结果看起来像这样......
Drug1 Drug2 Reaction Frequency
1 tylenol alcohol hepatic failure 298
2 advil aleve bleeding 201
3 aspirin advil renal failure 199
4 docusate senna diarrhea 146
5 senna sudafed palpitations 121
6 xanax alcohol sedation 111
7 clarinex benadryl dry mouth 96
...
569 ASPIRIN CLARINEX CHEST PAIN 2
Drug1 和 Drug2 是整个数据集中出现频率最高的药物对。“药物对”定义为具有相同报告 ID 的两种药物的任意组合。上面的示例输出将被解释为“第 1 行有 298 个唯一的报告 ID,其反应是肝功能衰竭。”