问题标签 [linear-discriminant]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - LDA 解释
我使用 HMeasure 包将 LDA 纳入我的信用风险分析中。我有 11000 个 obs,我选择了年龄和收入来进行分析。我不确切知道如何解释 LDA 的 R 结果。所以,我不知道我是否根据信用风险选择了最佳变量。我在代码下方向您展示。
其中 ETA = AGE 和 STIPENDIO = INCOME
非常感谢!
matlab - 什么样的 LDA 执行“fitcdiscr”功能?
我知道新的fitcdiscr
MATLAB® 函数可以执行多种判别分析,例如 LDA 或 QDA。但是,MATLAB® 中提到的“正则化”和“贝叶斯”让我感到困惑。
fitcdiscr
如果使用默认参数,执行什么样的判别分析?它使用贝叶斯线性判别分析 (BLDA)、Fisher's LDA (FLDA) 还是某种正则化 LDA (rLDA)?
r - 可以通过特定概率强制逻辑回归或其他分类器吗?
我有一个包含二进制变量[Yes/No] 和连续变量 (X) 的数据集。我正在尝试制作一个模型来对 [Yes/No] X 进行分类。
从我的数据集中,当 X = 0.5 时,48% 的观察结果是肯定的。但是,我知道当 X = 0.5 时,Yes 的真实概率应该是 50%。当我使用逻辑回归 X = 0.5 != P[Yes=0.5] 创建模型时。
我该如何纠正?我想如果它没有通过正确的点,那么所有的概率都应该被略微低估。
只是在我的样本中添加一堆观察值来调整比例是否正确?
不必只是逻辑回归,LDA、QDA 等也很有趣。
我搜索了 Stack Overflow,但只找到了有关线性回归的主题。
python - 对于 LinearDiscriminantAnalysis,当 shrinkage=true 时发生 MemoryError
除了设置收缩参数之外,该算法的其余场景运行良好。
为了提高算法的准确性,我使用了各种技术。
在 scikit 文档中,它说使用收缩可以提高准确性。
我正在使用 scikit-learn ( fetch_olivetti_faces
) 提供的 AT&T 数据集。
是因为特征数量大还是内存问题?
目前我正在使用VM机器来运行代码。
机器硬件规格如下:
CPU:Core i5
内存:1 GB Ram
存储:20 GB SSD
操作系统:UBUNTU 14.4
这是我正在运行的代码:
这是我得到的错误:
python - Python sklearn中的典型判别函数
我正在学习线性判别分析并使用 scikit-learn 模块。我对LinearDiscriminantAnalysis类的“coef_”属性感到困惑。据我了解,这些是判别函数系数(sklearn 称它们为权重向量)。由于应该有 (n_classes-1) 个判别函数,我希望 coef_ 属性是一个形状为 (n_components, n_features) 的数组,但它会打印一个 (n_classes, n_features) 数组。下面是使用 sklearn 中的 Iris 数据集示例的示例。由于有 3 个类和 2 个组件,我希望 print(lda.coef_) 给我一个 2x4 数组而不是 3x4 数组...
也许我误解了权重向量是什么,也许它们是分类函数的系数?
以及如何获得每个判别/规范函数中每个变量的系数?
代码在这里:
machine-learning - 我的半监督线性判别分析根本不起作用
我正在研究 LDA(线性判别分析),您可以参考http://www.ccs.neu.edu/home/vip/teach/MLcourse/5_features_dimensions/lecture_notes/LDA/LDA.pdf。
我对半监督 LDA 的想法:我可以使用标记数据 $X\in R^{d\times N}$ 来计算 $S_w$ 和 $S_b$ 中的所有项。现在,我还有未标记的数据 $Y\in R^{d\times M}$,并且这些数据可以额外用于估计 $S_w$ 中的协方差矩阵 $XX^T$ 通过 $\frac{N}{ N+M}(XX^T+YY^T)$ 直观地得到更好的协方差估计。
不同 LDA 的实现:我还为所有比较的方法在 $S_w$ 中添加了一个缩放的单位矩阵,缩放参数应该在不同的方法中调整。我将训练数据分为两部分:标记为 $X\in R^{d\times N}$,未标记为 $Y\in R^{d\times M}$,$N/M$ 的范围从 $0.5$ 到 $0.05$ . 我在三种真实数据集上运行我的半监督 LDA。
分类方法:将$S_w^{-1}S_b$的特征向量作为变换矩阵$\Phi$,则
实验结果: 1)在测试数据中,我在数据$X$&$Y$上训练的半监督LDA的分类准确率总是比只在数据$X$上训练的标准LDA差一点。2)此外,在一个真实数据中,这两种方法的最佳缩放参数可能非常不同,以实现最佳分类精度。
你能告诉我原因并给我建议让我的半监督 LDA 工作吗?我的代码已经过检查。非常感谢。
r - 无论错误如何,R 控制台都会提供输出,但 Shiny 应用程序不会因为错误而输出。如何绕过 Shiny 应用程序中的错误?
当我在 R 控制台中运行以下代码时,我在第 10 行收到以下错误:
“lda.default(x, grouping, ...) 中的错误:变量 5 6 在组内似乎是常数”
然而,其余的代码仍然被处理并绘制了数据。但是当我将此代码集成到我闪亮的应用程序中时,绘图面板会显示错误消息而没有其他内容。
有没有办法解决这个问题?
输入:
控制台输出:
r - 比较测试性能
我正在尝试在这里处理一些数据并比较 glm 和 lda 的测试性能。
数据附在此处。
这是我尝试做这两个的总体计划:
然而这些都不起作用。我以为有一个多项式家庭课程,但似乎不存在。另外,由于我的第一列是数字,而下一列都是灰度值,我认为我这样做V1 ~ .
了,但我认为这对于这些情况也不正确。有人知道我的语法/设置是否错误吗?
编辑:我添加了我如何尝试计算 LDA 的分类错误。但是我不认为我原来的东西有效,因为它给出了:
(pred_lda) 中的错误 - test$V1:二元运算符的非数字参数