问题标签 [supervised-learning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
220 浏览

r - bic.glm 模型预测错误

我已经使用 bic.glm 创建了一个模型,并且我试图预测没有因变量“is_blocked”的验证数据的概率。

当我对验证数据运行 predict() 函数时,出现以下错误:

eval 中的错误(expr,envir,enclos):找不到对象“is_blocked”

当 is_blocked 是我要预测的变量时,为什么会出现此错误?

0 投票
2 回答
5696 浏览

machine-learning - 在非常大的神经网络中是否需要偏置节点?

我了解偏置节点在神经网络中的作用,以及为什么它对于转移小型网络中的激活函数很重要。我的问题是:偏差在非常大的网络中仍然很重要(更具体地说,是使用 ReLu 激活函数、3 个卷积层、2 个隐藏层和超过 100,000 个连接进行图像识别的卷积神经网络),还是它的影响得到被大量的激活所迷惑?

我问的原因是因为过去我已经构建了网络,但我忘记了实现偏置节点,但是在添加一个后发现性能差异可以忽略不计。这可能是偶然的,因为特定的数据集不需要偏差吗?我是否需要在大型网络中使用更大的值初始化偏差?任何其他建议将不胜感激。

0 投票
1 回答
4667 浏览

python - NDCG(标准化贴现收益)是否存在缺陷?我已经计算了一些替代的排名质量衡量标准,但我无法得出正面或反面

我正在使用 python 来解决学习排名问题,并且我正在使用以下 DCG 和 NDCG 代码(来自http://nbviewer.ipython.org/github/ogrisel/notebooks/blob/master/Learning %20to%20Rank.ipynb )

以下是 3 个项目列表中最好和最坏情况的 DCG 值,没有重复排名...

我们可以使用这个指标来比较两个排名,看看哪个更好。但是,如果我计算 4 项列表的最坏情况......

4 项列表似乎不再与 3 项列表相提并论。

我还计算了两个替代 NDCG。NDCG2 将实现的 dcg 与机器人的最佳和最坏情况进行比较......

NDCG 将我的实际排名列表随机化 50 次,计算每个的 dcg,并将其与我的实际 DCG 进行比较。

在我的各种列表中,我得到以下指标......

  • NDCG:平均值为 0.87(听起来不错)
  • 斯皮尔曼等级:大约 0.25(并不令人惊讶,但有一些东西)
  • NDCG2:0.58(平均而言,比最差的 DCG 更接近最佳 DCG)
  • NDCG3:1.04(略好于随机排序的列表)

老实说,我无法对这些结果做出正面或反面。我的 NDCG 值看起来不错,但它们真的可以在列表中进行比较吗?替代指标是否更有意义?

编辑:在我的第一次随机比较中,我没有使用 np.copy()。因此,我的随机分数几乎总是 0.99。现在已经解决了,结果更有意义。

0 投票
6 回答
95115 浏览

machine-learning - 任何人都可以举一个监督学习和无监督学习的真实例子吗?

我最近研究了监督学习和无监督学习。从理论上讲,我知道有监督意味着从标记的数据集中获取信息,而无监督意味着在没有给出任何标签的情况下对数据进行聚类。

但是,问题是在我学习期间,我总是对确定给定示例是监督学习还是无监督学习感到困惑。

任何人都可以举一个现实生活中的例子吗?

0 投票
1 回答
495 浏览

machine-learning - 使用匹配分数来确定正确的特征(机器学习)

一旦特征可用,我熟悉确定我们知识库中给定文档集与搜索查询文档(基于余弦距离)的匹配程度。我们将根据特征在向量空间上进行映射。

我如何处理反向问题——我已经获得了一组文档和多个查询文档的匹配分数,并且必须确定特征(或确定匹配的决策标准)。这将是训练数据,该模型将用于识别与我们的知识数据库匹配的新搜索查询

我们目前的方法是想出一组特征,看看哪些组合在训练集中获得最佳匹配分数……但我们最终会尝试多种组合。有一个更好的方法吗?

0 投票
0 回答
627 浏览

matlab - 留一个 - MATLAB

我试图使用以下策略对数据集进行分类:

  • 留一个交叉验证
  • KNN 对每个“折叠”进行分类(计算错误数)
  • 计算最终误差
  • 重复 k=[1,2,3,4,5,7,10,12,15,20]

这是fisheriris数据集的代码:

由于结果(对于我的数据集)显示出奇怪的不连贯值,我决定编写自己的 LOO 版本,如下所示:

假设我的代码版本写得很好,我希望得到相同或至少相似的结果。以下是两种结果:

结果

知道为什么结果如此不同吗?我应该使用什么版本?现在我正在考虑重写我所做的其他测试(对于 3 倍、5 倍等),只是为了确定。

谢谢你们

0 投票
1 回答
8637 浏览

matlab - 使用经过训练的高斯混合模型标记新数据

我不确定如何使用经过训练的高斯混合模型 (GMM) 对一些新数据进行预测。例如,我从 3 个不同的类(集群)中提取了一些标记数据。对于每一类数据点,我拟合了一个 GMM(gm1、gm2 和 gm3)。假设我们知道每个类别的高斯混合数(例如,k1=2、k2=1 和 k3=3),或者可以使用 Akaike 信息准则 (AIC) 对其进行估计(优化)。那么当我有一些新的数据集时,我怎么知道它是否更有可能属于 1、2 或 3 类?

一些 Matlab 脚本显示了我的意思:

我们可以得到图:

训练有素的 GMM

然后我们得到了一些新的测试数据,例如:

测试数据

我故意使测试数据类似于Cluster 2 数据。在我们使用 GMM 进行训练之后,我们能否以某种方式预测新测试数据的标签?是否有可能为每个类别的预测得出一些概率,例如 (p1 = 18%, p2 = 80% 和 p3 = 2%)。因为我们得到了 p2=80%,所以我们可以有一个硬分类,新的测试数据被标记为集群 2。

ps:我找到了这篇文章,但对我来说似乎是理论上的(A similar post)。如果可以,请在您的回复中添加一些简单的 Matlab 脚本。

非常感谢。一个。


编辑:

当 Amro 回答问题的解决方案时,我有更多问题。

  1. Amro 使用整个数据集创建了一个新的 GMM,并进行了一些初始化:

    Amro 得到的如下所示

    阿姆罗的结果

    这可能不适合我的数据,因为它将我标记的 cluster1 和 cluster2 与 cluster1 的一部分混合在一起。这是我试图避免的。

    这里我提出的是一个人为的数值例子;但是,在我的实际应用程序中,它处理图像分割问题(​​例如,cluster1 是我的背景图像,cluster2 是我要分离的对象)。然后我尝试以某种方式“强制”单独的 GMM 以适应单独的类。如果两个聚类相距较远(例如本例中的cluster1和cluster 3),使用Amro的方法将所有数据合并,然后进行GMM拟合是没有问题的。但是,当我们对图像数据进行训练时,由于分辨率的限制(造成局部体积效应),将背景与物体分离永远不会完美;因此,很可能我们有 cluster1 与 cluster2 重叠的情况,如图所示。

    然而,经过一点思考,我现在想做的是:

    你们有什么感想?还是相当于Amro的方法?如果是这样,有没有办法强制我训练有素的 GMM 分离?

  2. posterior另外,我对使用该功能的基本原理有疑问。本质上,我想在 GMM 拟合的情况下估计我的测试数据的可能性。那为什么我们现在计算后验概率呢?或者这只是一个命名问题(换句话说,'后验概率'='可能性')?

  3. 据我所知,GMM 一直被用作一种无监督的方法。甚至有人向我提到 GMM 是 k-means 聚类的概率版本。是否有资格以这种“监督”的方式使用它?有推荐的论文或参考资料吗?

再次非常感谢您的回复!一个。

0 投票
0 回答
566 浏览

matlab - 使用 KNN 进行二进制分类

我在这里发帖是因为我不知道如何提高我的二进制 KNN 的性能。问题是我有 99.8% 的特异性和只有 82% 的敏感性,但我宁愿有更多的敏感性而不是特异性。我是这个领域的新手,我只在这个领域工作了 1 个月。在我的研究中,我使用了一个只训练了一个类的异常检测器,在这种情况下,为了提高 knn 分类器的灵敏度,我增加了阈值......现在我必须比较我的异常检测器使用 2 类分类器,似乎 KNN 在第一种情况下效果更好......灵敏度和特异性 (√Se*Sp) 的几何平均值在一类分类器中为 0.95,而在两者中只有 0.91 -classes 因为低灵敏度。我的预期正好相反......有人可以帮助我吗?

0 投票
1 回答
128 浏览

python - 具有大数据样本的神经网络的参数值应该是多少?

我已经在 Python 中为多层、前馈、反向传播结构完成了神经网络的编码。在这个网络结构中,输入层有 24 个节点,隐藏层有 18 个节点,输出层有 1 个节点。对于小数据集,我得到了良好的训练结果,但对于大数据输入,我无法设置学习率、动量率等常量参数的值。我将输入值的输入样本设置为:

并将目标值的样本输入为:

样本总数约为 5000。我已经使用

它给出了很好的结果,但花费了很多时间和大约 500000 次的迭代。对于设置学习率和动量率有什么好的建议,这样我就可以快速得到我的结果。或者我应该引入增加学习率比率,如果我引入学习率,那么值应该是多少?

0 投票
1 回答
149 浏览

python - 在 Scikit-Learn 中设置多个算法试验时遇到问题

我正在尝试使用 sklearn 文档中的这个示例。我不太确定代码在做什么,虽然我假设我输入数据集的方式错误,但我最近收到了这个错误:

ValueError: too many values to unpack 关于如何修改代码以使用我的数据集(这是来自 pandas 数据帧的多维 numpy 数组)并修复错误的任何想法?