问题标签 [supervised-learning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - PyBrain 中的监督数据集和网络问题
我最近发现了 PyBrain,所以我决定试一试。经过一段时间的测试后,我决定解决以下问题,以了解 PyBrain 在内部做了什么。
给定一个包含 6 个元素的列表(每个元素从 1 到 10),确定列表中是否有更多偶数、更多奇数或相等部分。
我给 PyBrain 50 个已解决的样本和 50 个未解决的样本,输出始终是正确答案的 1/3,实际上等于随机回答这个问题......所以我想我做错了什么。
我在一个论坛上读到我必须标准化我的数据。我这样做了,我得到了同样的结果。我将附上我的代码片段以及到目前为止我尝试过的内容。
我刚刚开始学习人工智能及其用途,如果我在这里做错了什么,请原谅。
regression - 使用高斯过程回归的 Matlab GPML 超分辨率
我正在使用基于学习的方法使用 GPR 进行图像超分辨率。但在我的情况下,我在实施 gpr 时遇到了问题。基本上,我正在做一个基于补丁的回归,其中我有 k 个补丁对进行训练。然后使用回归函数来预测测试输出。运行以下代码时,我得到了 gpr 推断,else 块的失败消息,我不完全理解 gpml,所以我无法继续并且已经卡了很长时间。任何帮助将不胜感激。请尽快回复。谢谢。
machine-learning - 聚类标签的无偏预测
我有兴趣评估通过无监督聚类发现的聚类标签的可预测性。假设我有一个由患者组成的数据集,并且我使用无监督聚类技术根据他们的基因表达谱对他们进行分组。我的方法发现了 4 个集群。现在,我想知道这个集群成员是否可以从表达式数据中预测出来。使用全数据无监督集群标签作为输出变量,我以交叉验证的方式训练监督分类器。因此,我使用 80% 的数据训练分类器,并评估另外 20% 的准确度。
这种方法是否有偏差,因为输出集群标签是从完整数据中学习的?如果是,我怎样才能以公正的方式做到这一点?如果我以交叉验证的方式进行聚类,我认为我需要手动关联每个不同折叠之间的聚类。由于我对四个集群中的一个集群与其他集群的可预测性特别感兴趣,因此我必须通过某种手动分析找出数据的每个折叠集群中哪个集群。
machine-learning - 为什么 L1 正则化在机器学习中起作用
那么,在机器学习中,防止过拟合的一种方法是加入L2正则化,也有人说L1正则化更好,这是为什么呢?我也知道L1是用来保证数据的稀疏性的,这个结果的理论支持是什么?
optimization - 多类 Logistic 回归的学习曲线
我使用逻辑回归编写了一个多类分类器,该分类器使用一对多的方法进行训练。我想为经过训练的分类器绘制学习曲线。
学习曲线应该逐个类别地绘制,还是应该是整个分类器的单个图?这有什么不同吗?
为了澄清,学习曲线是训练和交叉验证/测试集错误/成本与训练集大小的关系图。该图应该允许您查看增加训练集大小是否会提高性能。更一般地说,学习曲线允许您确定您的算法是否存在偏差(欠拟合)或方差(过拟合)问题。
关于我的代码的一些细节:
- 分析 MNIST 手写数字图像
- 预测图像中的数字 (0-9)
- 基于 Andrew Ng 的 Coursera 机器学习课程
sample - 为监督机器学习选择样本
如何通过应用监督学习为要解决的二元分类问题选择样本量和样本集(用于训练和测试)?
当前的实现基于 15 个二进制特征,我们可能会将其扩展到 20 个或可能 24 个二进制特征,以提高准确度指标。分类基于在决策表中的查找,我们希望将其替换为具有机器学习分类器的决策。部分目标也是衡量我们当前的准确性指标。
a) 监督训练选择的最小样本量是多少,以平衡所需的准确性和成本?b) 我们如何选择用于训练/测试集的实际样本?
计算学习理论定义了给定假设空间的最小样本,将错误保持在某个阈值以下的期望概率。请提供解释和应用这些公式的可能示例。
样本分类训练/测试集将由人工决定收集。所以,显然选择这个样本集是有成本的。当成本和收益无法轻易写在纸上时,为项目提供资金变得更加困难。
signal-processing - 音乐心情分类
我正在努力将歌曲分类为不同的情绪,如快乐、悲伤、热情、好斗等。我想将歌曲的不同部分分开,并使用监督机器学习为每个部分设置一个情绪标签。
是否有任何可用的带有已注释情绪标签的音乐数据集可用于我的目的?此外,除了提取节奏、模式、音高、音色等特征外,是否有任何已知的处理方法?
python - Scikit-learn:如何获得真阳性、真阴性、假阳性和假阴性
我的问题:
我有一个数据集,它是一个大型 JSON 文件。我读取它并将其存储在trainList
变量中。
接下来,我对其进行预处理——以便能够使用它。
完成后,我开始分类:
- 我使用
kfold
交叉验证方法来获得平均准确率并训练分类器。 - 我做出预测并获得该折叠的准确性和混淆矩阵。
- 在此之后,我想获得
True Positive(TP)
、True Negative(TN)
和值。我将使用这些参数来获得Sensitivity和Specificity。False Positive(FP)
False Negative(FN)
最后,我将使用它来放入 HTML 中,以显示带有每个标签的 TP 的图表。
代码:
我目前拥有的变量:
大部分方法:
python - Scikit-learn:如何计算真阴性
我正在使用 Scikit-learning,我需要从这样的混淆矩阵中计算真阳性 (TP)、假阳性 (FP)、真阴性 (TN) 和假阴性 (FN):
我知道如何计算 TP、FP 和 FN,但我不知道如何获得 TN。有人可以告诉我吗?
weka - weka中如何对整个数据集进行分类
我有一个包含 6836 个实例的监督数据集,我需要知道我的模型对所有实例的预测,而不仅仅是测试集。
我按照方法 train-test (2/3-1/3) 了解了我的 TPR 和 FPR 率,并且我得到了关于我的测试 (1/3) 的预测,但我需要知道所有的预测6836 个实例。
我该怎么做?
谢谢!