问题标签 [multilabel-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 多类多标签分类的精度/召回率
我想知道如何计算多类多标签分类的精度和召回度量,即有两个以上标签的分类,每个实例可以有多个标签?
java - 全局多标签性能评估的平均精度/召回率是否正确?
让我们谈谈标签 A、B 和 C 的多标签分类问题。我可以计算每个标签的精度/召回率,如下所示:
- 精度:正确的 NodeX 分配 / 总 NodeX 分配
- 回忆:正确的 NodeX 分配 / 总 NodeX 真实出现次数
- F1 Measure: 2 * (Precision * Recall) / (Precision + Recall)
因为我有 3 个标签,所以我想通过平均每个单个节点的值来获得全局性能度量,就像这里建议的那样。
但是,我注意到这打破了 F1 测量不变量!一个例子来澄清:
尝试为多标签分类性能测量提出基于全局节点的指标是否正确?有没有更好的方法来做到这一点?
注意:我知道其他性能指标(准确性、ROC/AUC 等),但我也想解决这个问题。
neural-network - 使用 ANN / MLP 进行异构类识别
我已经建立了一个分类的 3 层人工神经网络,它似乎可以在其他数据集上工作。玩弄我制作的一些人工数据集,当一个类在一个特征或另一个特征中为正时,我无法在两个类之间正确预测。
显然,可以通过询问特征 1 或特征 2 是否等于 1 来识别 class1,但我无法让算法正确预测数据集(数据集中有 20 个遵循此模式的示例)。
ANN/MLPs 可以识别这种类型的模式吗?如果是这样,我错过了什么?如果没有,是否有其他方法可以预测这种类型的模式(可能是 SVM)?
我使用 Octave,因为这是 coursera 提供的在线课程中使用的。我在这里列出了大部分代码,尽管在我运行它时它的结构略有不同。正如你所看到的,我确实在第一层和第二层使用了偏差单元,并且我还将第二层中隐藏单元的数量从 1 到 5 改变了,但与随机猜测相比没有任何改进。
vowpalwabbit - 用于多标签分类的 Vowpal Wabbit 预测
对不起,我确实觉得我忽略了一些非常明显的东西。
但是怎么会发生以下情况:
所以测试文件与训练文件相同,但对于标签。因此,我希望 vw 生成它从训练文件中学到的原始标签,因为它完全忽略了测试文件中的标签。
但是,它似乎重现了测试文件中的标签?!?
显然,我在这里做错了什么……但是什么?
machine-learning - 为什么多类 Logistic 回归给出的结果与在 OvR 分类器中选择最可能的标签不同?
我注意到,将 SK-learn 的 LogisticRegression 分类器与以下 one-vs-rest 分类器结合使用时,我的 f 分数略低于单独使用它进行多类分类。
由于逻辑回归分类器的文档说明它使用一对多策略,我想知道哪些因素可以解释性能差异。我的 one-vs-rest LR 分类器似乎比 LR 分类器本身对其中一个类的预测更多。
machine-learning - 机器学习:简历/个人资料输入,申请人分类
我的数据集由具有各种属性的人的个人资料/简历组成,例如当前工作、收入、过去的公司、大学等。使用这些数据,我试图将申请人分为 3 类:良好、中等、拒绝。
我有一个带有标记样本的训练数据集。
我应该使用什么机器学习算法?
scipy - SciPy 稀疏矩阵中的测试数据预测误差
我将这样的 LIBSVM 格式的数据输入到 SciPy 稀疏矩阵中。训练集是多标签和多类的,如我问的这个问题中所述: Understanding format of data in scikit-learn
然后我使用OneVsRestClassifier
withLinearSVC
来训练数据。
现在,当我想测试数据时,我执行以下操作。
在这里它给了我错误。我原样在这里转储回溯。
回溯(最近一次通话最后):
文件“test.py”,第 36 行,在
预测 = clf.predict(X_)
文件“/usr/lib/pymodules/python2.7/sklearn/multiclass.py”,第 151 行,在预测中
返回 predict_ovr(self.estimators_, self.label_binarizer_, X)
文件“/usr/lib/pymodules/python2.7/sklearn/multiclass.py”,第 67 行,在 predict_ovr
Y = np.array([_predict_binary(e, X) for e in estimators])
_predict_binary 中的文件“/usr/lib/pymodules/python2.7/sklearn/multiclass.py”,第 40 行
返回 np.ravel(estimator.decision_function(X))
文件“/usr/lib/pymodules/python2.7/sklearn/svm/base.py”,第 728 行,在决策函数中
self._check_n_features(X)
_check_n_features 中的文件“/usr/lib/pymodules/python2.7/sklearn/svm/base.py”,第 748 行
X.shape[1]))
ValueError: X.shape[1] 应该是 3421,而不是 690。
我不明白为什么当输入格式是稀疏矩阵时它会寻找更多特征?我怎样才能让它正确预测测试标签?
c++ - 根据 OpenCV 中的参数,多类任务中 CvSVM::train_auto 的时间复杂度是多少?
根据其参数,OpenCV中CvSVM::train_auto的时间复杂度是多少?
特别,
- BOW(词袋)词汇量
- 班级数量
- 样品量
为了训练。
提前致谢 !
confusion-matrix - 为多类多标签分类构建混淆矩阵
我想为多类多标签分类建立一个混淆矩阵,然后计算精度、召回率和 F1。一个想法是从训练和测试集中的所有组合中构建它,例如
另一个想法是像简单的标签分类一样构建它,但是对矩阵的值使用双精度值,例如
这种情况下的问题是如何计算这个值有意义?
有人有构建此类矩阵的经验吗?哪个版本更理性?如果有其他方法可以构建这样的混淆矩阵,很高兴收到您的来信。
问候,安德烈
machine-learning - 动态类集多标签分类的局限性
我手头有一个问题陈述,我需要知道它是否可以通过机器学习来解决。它是这样的: -
我有一个用户可以上传文档的系统,假设我们有一个名为 xxxZxxx.xxx 的文件
用户进入系统文件夹结构的多个级别并放置文件,(例如)A/B/C/D/Z/xxxZxxx.xxx
我们需要创建一个系统来读取文件名并建议 放置文件的路径。
在这种情况下,文件名包含路径的最后一部分,这是一个业务对象目录,但它可能不包含。我们有这样的路径和文档,按 10^5 的顺序排列。
随着时间的推移,可能会添加新的路径,即业务对象,这使得它成为一个多类分类,大约有 10^5 个类,并且不断增加
这可以解决吗?
我尝试使用一袋字符(灵感来自词袋)作为失败的特征向量。
对此可以遵循的任何方法有何评论?让我知道是否需要任何其他信息,我将编辑问题或更改标签。