0

我有一个非常规的问题,很难找到解决方案。非常感谢您的帮助。

我有 4 个基因(特征),我的分类是二进制(0 和 1)。经过多次反复,我最终确定使用 LDA 进行分类。我有不同的研究,每项研究都比较相同的两个类别,并且我在每项研究中都使用这 4 个基因训练了我的模型。

我想以点图的形式可视化 LDA 分数。如下所示,其中每个部分代表不同的研究/数据集。X 轴上该数据集的样本和我使用的 LD1 值 - lda_model = lda(formula = class ~ ., data = train) predict(lda_model,train)Y 轴上。

在此处输入图像描述 由于我在每个数据集上训练了不同的模型,我们可以清楚地看到每个数据集的决策边界(我假设是黑线)是不同的并且在不同的规模上。但是,我想缩放 Y 轴上的值,这样我的所有数据集都在相同的比例上,我可以用一个决策边界来表示这个图(同样,我可以在图上清楚地绘制一些东西,比如红线)。

这里的 LD1 值为 - a(GeneA) + b(GeneB) + c(GeneC) + d(GeneD) - mean(a(GeneA) + b(GeneB) + c(GeneC) + d(GeneD))。这是针对每个数据集单独完成的。然而,这并不完全等于我们可以使用逻辑回归得到的 (a(GeneA) + b(GeneB) + c(GeneC) + d(GeneD) + intercept)。我正在尝试找到可以使用 LDA 在所有数据集上缩放我的 Y 轴的值或某种方法。

谢谢你的帮助!

4

1 回答 1

0

我做了一个最小-最大缩放,这似乎奏效了。它在决策边界为零的所有数据集中缩放了我的所有数据点。

于 2019-10-15T17:34:56.953 回答