algorithm - 哪种算法适用于遗传学重复数据？

Question

我的问题与为我的数据集找到最佳算法更相关。

我的数据包含三列，即个人、疾病和测试分数（我有 50 个测试分数特征，但这里只提到了一个测试分数特征）。我有 3000 个人，疾病特征的可能值是 disA、disB 和 disC，其中测试分数是离散变量。疾病特征是我的职业属性。

一个人最多可以患有三种不同的疾病，但只有一个测试分数值。我的目标是根据疾病对测试分数进行分类（哪些测试分数与哪种疾病相关）但是这里的问题是，如果一个人患有三种疾病，那么所有测试分数将重复三次。例如，对于单个 aa（包含所有 disA、disB 和 disC）测试分数为 12。然后分析文件将如下所示

individuals, Disease, Test Score
aa,disA,12,...
aa,disB,12,...
aa,disC,12,...

这将导致有偏见的分析。是否有针对此类数据的任何数据挖掘算法或统计测试？我无法删除这些患者，因为它们是数据集的最高比例。

score 0 · Accepted Answer

我将使用reshape包中描述的 Hadley Wickham 设计的以下格式：

例子：

individuals, variable, value
aa,disease,disA
aa,disease,disB
aa,disease,disC
aa,testscore,12

score 0 · Accepted Answer

为什么不将问题重新定义为从测试分数到疾病集的一步映射呢？使用您的示例，下面的第一行数据显示“aa”患有所有疾病，而“bb”仅患有 A 病。

individuals, DiseaseA, DiseaseB, DiseaseC, Test Score
aa,true,true,true,12
bb,true,false,false,10

2 回答 2