0 投票

0 回答

220 浏览

r - bic.glm 模型预测错误

我已经使用 bic.glm 创建了一个模型，并且我试图预测没有因变量“is_blocked”的验证数据的概率。

当我对验证数据运行 predict() 函数时，出现以下错误：

eval 中的错误（expr，envir，enclos）：找不到对象“is_blocked”

当 is_blocked 是我要预测的变量时，为什么会出现此错误？

r supervised-learning

2014-08-20T15:15:54.447

0 投票

2 回答

5696 浏览

machine-learning - 在非常大的神经网络中是否需要偏置节点？

我了解偏置节点在神经网络中的作用，以及为什么它对于转移小型网络中的激活函数很重要。我的问题是：偏差在非常大的网络中仍然很重要（更具体地说，是使用 ReLu 激活函数、3 个卷积层、2 个隐藏层和超过 100,000 个连接进行图像识别的卷积神经网络），还是它的影响得到被大量的激活所迷惑？

我问的原因是因为过去我已经构建了网络，但我忘记了实现偏置节点，但是在添加一个后发现性能差异可以忽略不计。这可能是偶然的，因为特定的数据集不需要偏差吗？我是否需要在大型网络中使用更大的值初始化偏差？任何其他建议将不胜感激。

2014-09-11T16:26:07.620

0 投票

1 回答

4667 浏览

python - NDCG（标准化贴现收益）是否存在缺陷？我已经计算了一些替代的排名质量衡量标准，但我无法得出正面或反面

我正在使用 python 来解决学习排名问题，并且我正在使用以下 DCG 和 NDCG 代码（来自http://nbviewer.ipython.org/github/ogrisel/notebooks/blob/master/Learning %20to%20Rank.ipynb )

以下是 3 个项目列表中最好和最坏情况的 DCG 值，没有重复排名...

我们可以使用这个指标来比较两个排名，看看哪个更好。但是，如果我计算 4 项列表的最坏情况......

4 项列表似乎不再与 3 项列表相提并论。

我还计算了两个替代 NDCG。NDCG2 将实现的 dcg 与机器人的最佳和最坏情况进行比较......

NDCG 将我的实际排名列表随机化 50 次，计算每个的 dcg，并将其与我的实际 DCG 进行比较。

在我的各种列表中，我得到以下指标......

NDCG：平均值为 0.87（听起来不错）
斯皮尔曼等级：大约 0.25（并不令人惊讶，但有一些东西）
NDCG2：0.58（平均而言，比最差的 DCG 更接近最佳 DCG）
NDCG3：1.04（略好于随机排序的列表）

老实说，我无法对这些结果做出正面或反面。我的 NDCG 值看起来不错，但它们真的可以在列表中进行比较吗？替代指标是否更有意义？

编辑：在我的第一次随机比较中，我没有使用 np.copy()。因此，我的随机分数几乎总是 0.99。现在已经解决了，结果更有意义。

python machine-learning information-retrieval supervised-learning ranking-functions

2014-10-01T18:33:41.547

0 投票

6 回答

95115 浏览

machine-learning - 任何人都可以举一个监督学习和无监督学习的真实例子吗？

我最近研究了监督学习和无监督学习。从理论上讲，我知道有监督意味着从标记的数据集中获取信息，而无监督意味着在没有给出任何标签的情况下对数据进行聚类。

但是，问题是在我学习期间，我总是对确定给定示例是监督学习还是无监督学习感到困惑。

任何人都可以举一个现实生活中的例子吗？

machine-learning deep-learning data-mining supervised-learning unsupervised-learning

2014-10-03T16:29:50.327

0 投票

1 回答

495 浏览

machine-learning - 使用匹配分数来确定正确的特征（机器学习）

一旦特征可用，我熟悉确定我们知识库中给定文档集与搜索查询文档（基于余弦距离）的匹配程度。我们将根据特征在向量空间上进行映射。

我如何处理反向问题——我已经获得了一组文档和多个查询文档的匹配分数，并且必须确定特征（或确定匹配的决策标准）。这将是训练数据，该模型将用于识别与我们的知识数据库匹配的新搜索查询

我们目前的方法是想出一组特征，看看哪些组合在训练集中获得最佳匹配分数……但我们最终会尝试多种组合。有一个更好的方法吗？

machine-learning feature-selection supervised-learning

2014-10-06T18:05:59.500

0 投票

0 回答

627 浏览

matlab - 留一个 - MATLAB

我试图使用以下策略对数据集进行分类：

留一个交叉验证
KNN 对每个“折叠”进行分类（计算错误数）
计算最终误差
重复 k=[1,2,3,4,5,7,10,12,15,20]

这是fisheriris数据集的代码：

由于结果（对于我的数据集）显示出奇怪的不连贯值，我决定编写自己的 LOO 版本，如下所示：

假设我的代码版本写得很好，我希望得到相同或至少相似的结果。以下是两种结果：

知道为什么结果如此不同吗？我应该使用什么版本？现在我正在考虑重写我所做的其他测试（对于 3 倍、5 倍等），只是为了确定。

谢谢你们

matlab machine-learning knn supervised-learning

2014-10-08T12:26:47.343

0 投票

1 回答

8637 浏览

我不确定如何使用经过训练的高斯混合模型 (GMM) 对一些新数据进行预测。例如，我从 3 个不同的类（集群）中提取了一些标记数据。对于每一类数据点，我拟合了一个 GMM（gm1、gm2 和 gm3）。假设我们知道每个类别的高斯混合数（例如，k1=2、k2=1 和 k3=3），或者可以使用 Akaike 信息准则 (AIC) 对其进行估计（优化）。那么当我有一些新的数据集时，我怎么知道它是否更有可能属于 1、2 或 3 类？

一些 Matlab 脚本显示了我的意思：

我们可以得到图：

训练有素的 GMM

然后我们得到了一些新的测试数据，例如：

测试数据

我故意使测试数据类似于Cluster 2 数据。在我们使用 GMM 进行训练之后，我们能否以某种方式预测新测试数据的标签？是否有可能为每个类别的预测得出一些概率，例如 (p1 = 18%, p2 = 80% 和 p3 = 2%)。因为我们得到了 p2=80%，所以我们可以有一个硬分类，新的测试数据被标记为集群 2。

ps：我找到了这篇文章，但对我来说似乎是理论上的（A similar post）。如果可以，请在您的回复中添加一些简单的 Matlab 脚本。

非常感谢。一个。

编辑：

当 Amro 回答问题的解决方案时，我有更多问题。

Amro 使用整个数据集创建了一个新的 GMM，并进行了一些初始化：

Amro 得到的如下所示

这可能不适合我的数据，因为它将我标记的 cluster1 和 cluster2 与 cluster1 的一部分混合在一起。这是我试图避免的。

这里我提出的是一个人为的数值例子；但是，在我的实际应用程序中，它处理图像分割问题（例如，cluster1 是我的背景图像，cluster2 是我要分离的对象）。然后我尝试以某种方式“强制”单独的 GMM 以适应单独的类。如果两个聚类相距较远（例如本例中的cluster1和cluster 3），使用Amro的方法将所有数据合并，然后进行GMM拟合是没有问题的。但是，当我们对图像数据进行训练时，由于分辨率的限制（造成局部体积效应），将背景与物体分离永远不会完美；因此，很可能我们有 cluster1 与 cluster2 重叠的情况，如图所示。

然而，经过一点思考，我现在想做的是：

你们有什么感想？还是相当于Amro的方法？如果是这样，有没有办法强制我训练有素的 GMM 分离？
posterior另外，我对使用该功能的基本原理有疑问。本质上，我想在 GMM 拟合的情况下估计我的测试数据的可能性。那为什么我们现在计算后验概率呢？或者这只是一个命名问题（换句话说，'后验概率'='可能性'）？
据我所知，GMM 一直被用作一种无监督的方法。甚至有人向我提到 GMM 是 k-means 聚类的概率版本。是否有资格以这种“监督”的方式使用它？有推荐的论文或参考资料吗？

再次非常感谢您的回复！一个。

matlab machine-learning gaussian supervised-learning mixture-model

2014-10-08T16:12:03.057

0 投票

0 回答

566 浏览

matlab - 使用 KNN 进行二进制分类

我在这里发帖是因为我不知道如何提高我的二进制 KNN 的性能。问题是我有 99.8% 的特异性和只有 82% 的敏感性，但我宁愿有更多的敏感性而不是特异性。我是这个领域的新手，我只在这个领域工作了 1 个月。在我的研究中，我使用了一个只训练了一个类的异常检测器，在这种情况下，为了提高 knn 分类器的灵敏度，我增加了阈值......现在我必须比较我的异常检测器使用 2 类分类器，似乎 KNN 在第一种情况下效果更好......灵敏度和特异性 (√Se*Sp) 的几何平均值在一类分类器中为 0.95，而在两者中只有 0.91 -classes 因为低灵敏度。我的预期正好相反......有人可以帮助我吗？

matlab machine-learning nearest-neighbor knn supervised-learning

2014-10-12T09:30:55.873

0 投票

1 回答

128 浏览

python - 具有大数据样本的神经网络的参数值应该是多少？

我已经在 Python 中为多层、前馈、反向传播结构完成了神经网络的编码。在这个网络结构中，输入层有 24 个节点，隐藏层有 18 个节点，输出层有 1 个节点。对于小数据集，我得到了良好的训练结果，但对于大数据输入，我无法设置学习率、动量率等常量参数的值。我将输入值的输入样本设置为：

并将目标值的样本输入为：

样本总数约为 5000。我已经使用

它给出了很好的结果，但花费了很多时间和大约 500000 次的迭代。对于设置学习率和动量率有什么好的建议，这样我就可以快速得到我的结果。或者我应该引入增加学习率比率，如果我引入学习率，那么值应该是多少？

python neural-network backpropagation supervised-learning

2014-10-16T11:07:24.417

0 投票

1 回答

149 浏览

python - 在 Scikit-Learn 中设置多个算法试验时遇到问题

我正在尝试使用 sklearn 文档中的这个示例。我不太确定代码在做什么，虽然我假设我输入数据集的方式错误，但我最近收到了这个错误：

ValueError: too many values to unpack 关于如何修改代码以使用我的数据集（这是来自 pandas 数据帧的多维 numpy 数组）并修复错误的任何想法？

python matplotlib machine-learning scikit-learn supervised-learning

2014-10-28T01:26:15.287

问题标签 [supervised-learning]

r - bic.glm 模型预测错误

machine-learning - 在非常大的神经网络中是否需要偏置节点？

python - NDCG（标准化贴现收益）是否存在缺陷？我已经计算了一些替代的排名质量衡量标准，但我无法得出正面或反面

machine-learning - 任何人都可以举一个监督学习和无监督学习的真实例子吗？

machine-learning - 使用匹配分数来确定正确的特征（机器学习）

matlab - 留一个 - MATLAB

matlab - 使用经过训练的高斯混合模型标记新数据

编辑：

matlab - 使用 KNN 进行二进制分类

python - 具有大数据样本的神经网络的参数值应该是多少？

python - 在 Scikit-Learn 中设置多个算法试验时遇到问题

问题标签 [supervised-learning]

编辑：

Reference