问题标签 [multilabel-classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
30062 浏览

machine-learning - 多类多标签分类的精度/召回率

我想知道如何计算多类多标签分类的精度和召回度量,即有两个以上标签的分类,每个实例可以有多个标签?

0 投票
1 回答
787 浏览

java - 全局多标签性能评估的平均精度/召回率是否正确?

让我们谈谈标签 A、B 和 C 的多标签分类问题。我可以计算每个标签的精度/召回率,如下所示:

  • 精度:正确的 NodeX 分配 / 总 NodeX 分配
  • 回忆:正确的 NodeX 分配 / 总 NodeX 真实出现次数
  • F1 Measure: 2 * (Precision * Recall) / (Precision + Recall)

因为我有 3 个标签,所以我想通过平均每个单个节点的值来获得全局性能度量,就像这里建议的那样。

但是,我注意到这打破了 F1 测量不变量!一个例子来澄清:

尝试为多标签分类性能测量提出基于全局节点的指标是否正确?有没有更好的方法来做到这一点?

注意:我知道其他性能指标(准确性、ROC/AUC 等),但我也想解决这个问题。

0 投票
1 回答
205 浏览

neural-network - 使用 ANN / MLP 进行异构类识别

我已经建立了一个分类的 3 层人工神经网络,它似乎可以在其他数据集上工作。玩弄我制作的一些人工数据集,当一个类在一个特征或另一个特征中为正时,我无法在两个类之间正确预测。

显然,可以通过询问特征 1 或特征 2 是否等于 1 来识别 class1,但我无法让算法正确预测数据集(数据集中有 20 个遵循此模式的示例)。

ANN/MLPs 可以识别这种类型的模式吗?如果是这样,我错过了什么?如果没有,是否有其他方法可以预测这种类型的模式(可能是 SVM)?

我使用 Octave,因为这是 coursera 提供的在线课程中使用的。我在这里列出了大部分代码,尽管在我运行它时它的结构略有不同。正如你所看到的,我确实在第一层和第二层使用了偏差单元,并且我还将第二层中隐藏单元的数量从 1 到 5 改变了,但与随机猜测相比没有任何改进。

0 投票
2 回答
2011 浏览

vowpalwabbit - 用于多标签分类的 Vowpal Wabbit 预测

对不起,我确实觉得我忽略了一些非常明显的东西。

但是怎么会发生以下情况:

所以测试文件与训练文件相同,但对于标签。因此,我希望 vw 生成它从训练文件中学到的原始标签,因为它完全忽略了测试文件中的标签。

但是,它似乎重现了测试文件中的标签?!?

显然,我在这里做错了什么……但是什么?

0 投票
1 回答
821 浏览

machine-learning - 为什么多类 Logistic 回归给出的结果与在 OvR 分类器中选择最可能的标签不同?

我注意到,将 SK-learn 的 LogisticRegression 分类器与以下 one-vs-rest 分类器结合使用时,我的 f 分数略低于单独使用它进行多类分类。

由于逻辑回归分类器的文档说明它使用一对多策略,我想知道哪些因素可以解释性能差异。我的 one-vs-rest LR 分类器似乎比 LR 分类器本身对其中一个类的预测更多。

0 投票
0 回答
956 浏览

machine-learning - 机器学习:简历/个人资料输入,申请人分类

我的数据集由具有各种属性的人的个人资料/简历组成,例如当前工作、收入、过去的公司、大学等。使用这些数据,我试图将申请人分为 3 类:良好、中等、拒绝。

我有一个带有标记样本的训练数据集。

我应该使用什么机器学习算法?

0 投票
1 回答
426 浏览

scipy - SciPy 稀疏矩阵中的测试数据预测误差

我将这样的 LIBSVM 格式的数据输入到 SciPy 稀疏矩阵中。训练集是多标签和多类的,如我问的这个问题中所述: Understanding format of data in scikit-learn

然后我使用OneVsRestClassifierwithLinearSVC来训练数据。

现在,当我想测试数据时,我执行以下操作。

在这里它给了我错误。我原样在这里转储回溯。

回溯(最近一次通话最后):

文件“test.py”,第 36 行,在

预测 = clf.predict(X_)

文件“/usr/lib/pymodules/python2.7/sklearn/multiclass.py”,第 151 行,在预测中

返回 predict_ovr(self.estimators_, self.label_binarizer_, X)

文件“/usr/lib/pymodules/python2.7/sklearn/multiclass.py”,第 67 行,在 predict_ovr

Y = np.array([_predict_binary(e, X) for e in estimators])

_predict_binary 中的文件“/usr/lib/pymodules/python2.7/sklearn/multiclass.py”,第 40 行

返回 np.ravel(estimator.decision_function(X))

文件“/usr/lib/pymodules/python2.7/sklearn/svm/base.py”,第 728 行,在决策函数中

self._check_n_features(X)

_check_n_features 中的文件“/usr/lib/pymodules/python2.7/sklearn/svm/base.py”,第 748 行

X.shape[1]))

ValueError: X.shape[1] 应该是 3421,而不是 690。

我不明白为什么当输入格式是稀疏矩阵时它会寻找更多特征?我怎样才能让它正确预测测试标签?

0 投票
0 回答
95 浏览

c++ - 根据 OpenCV 中的参数,多类任务中 CvSVM::train_auto 的时间复杂度是多少?

根据其参数,OpenCV中CvSVM::train_auto的时间复杂度是多少?

特别,

  • BOW(词袋)词汇量
  • 班级数量
  • 样品量

为了训练。

提前致谢 !

0 投票
1 回答
3503 浏览

confusion-matrix - 为多类多标签分类构建混淆矩阵

我想为多类多标签分类建立一个混淆矩阵,然后计算精度、召回率和 F1。一个想法是从训练和测试集中的所有组合中构建它,例如

另一个想法是像简单的标签分类一样构建它,但是对矩阵的值使用双精度值,例如

这种情况下的问题是如何计算这个值有意义?

有人有构建此类矩阵的经验吗?哪个版本更理性?如果有其他方法可以构建这样的混淆矩阵,很高兴收到您的来信。

问候,安德烈

0 投票
1 回答
714 浏览

machine-learning - 动态类集多标签分类的局限性

我手头有一个问题陈述,我需要知道它是否可以通过机器学习来解决。它是这样的: -

我有一个用户可以上传文档的系统,假设我们有一个名为 xxxZxxx.xxx 的文件

用户进入系统文件夹结构的多个级别并放置文件,(例如)A/B/C/D/Z/xxxZxxx.xxx

我们需要创建一个系统来读取文件名并建议 放置文件的路径。

在这种情况下,文件名包含路径的最后一部分,这是一个业务对象目录,但它可能不包含。我们有这样的路径和文档,按 10^5 的顺序排列。

随着时间的推移,可能会添加新的路径,即业务对象,这使得它成为一个多类分类,大约有 10^5 个类,并且不断增加

这可以解决吗?

我尝试使用一袋字符(灵感来自词袋)作为失败的特征向量。

对此可以遵循的任何方法有何评论?让我知道是否需要任何其他信息,我将编辑问题或更改标签。