问题标签 [multilabel-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R中的多类分类
我有特定帐户的推文,我想浏览每条推文并将其分类为商业、音乐、体育等类别标签。
我创建训练数据的方法是为每个类标签分配几个关键字,例如
- “商业”的关键词可能是——企业家、工作、GDP……
- “音乐”的关键字可以是 - 歌曲、流派、专辑……</li>
用于训练数据的 .CSV 文件有 2 列 1. 关键字 2. 类
这是正确的方法吗?
先感谢您!
multilabel-classification - 在 R 中使用 mlr 包进行多标签文本分类
我需要训练一个模型,该模型将对文本数据执行多标签多类分类。
我目前正在尝试按照此链接中的说明使用 R 中的 mlr 包执行相同的操作-
1)有没有其他推荐的包?
2)否则,我被困在这个地方(如上文所述)
“分类”为 NULL
任何帮助/指示将不胜感激。
谢谢。
更新:- 尝试创建“任务”对象。代码如下-
面对以下错误 -
makeSupervisedTask("multilabel", data, target, weights, blocking) 中的错误:数据的列名不包含目标变量:10
解决了
在获得所需格式的输入数据框后,我能够对其进行训练,类似于教程链接中的酵母数据,该数据作为 makeMultilabelTask() 函数的输入
machine-learning - 在 SKlearn 中组合多个估计器以实现多标签多类
我一直在研究 sklearn 中的集成方法:sklearn ensemble。我正在尝试训练几个不同的估计器并组合结果,如示例 1.11.5.1(靠近页面底部,VotingClassifier)。但是,我的问题是多类多标签,这不受支持。
如何组合来自多种不同类型估计器的结果,以便对多类多标签数据进行分类?
我曾尝试输出每个标签的概率,然后进行平均,但结果比单个模型差。谢谢。
machine-learning - 用于多标签分类的带有随机森林的 AdaBoostClassifier (sklearn)
我正在尝试在多类多标签问题上使用 AdaBoostClassifier 和 RandomForestClassifier/
我知道 AdaBoostClassifier 支持多标签输出(错误,它不支持!),其中 y 是“X 的真实标签”。请问我哪里错了?谢谢!
python - caffe 中用于多标签分类和层定义的 LMDB 数据
我是 caffe 框架的初学者,我想用多标签数据实现 CNN 模型的训练。我知道如何像这个例子一样在 python 中创建 lmdb 数据,但是我找不到任何完整的教程来说明当图像有 2 个或更多标签时如何定义标签。
不知道有没有完整清晰的例子说明如何创建此类数据以及如何在 prototxt 文件中定义准确率和损失层。
python - 如何计算多标签分类中的 F1 度量?
我正在研究句子类别检测问题。其中每个句子可以属于多个类别,例如:
我已经实现了一个可以预测多个类别的分类器。我总共有 587 个句子属于多个类别。我通过两种方式计算了准确度分数:
如果一个例子的所有标签都预测到了?
代码:
输出:
为所有示例正确预测了多少标签?
代码:
输出:
问题: 这些都是通过将预测分数与地面实况标签进行比较来计算的准确度分数。但我也想计算 F1 分数(使用微平均)、精度和召回率。我有基本事实标签,我需要将我的预测与这些基本事实标签相匹配。但是,我不知道如何解决这种类型的多标签分类问题。我可以在 python 中使用 scikit-learn 或任何其他库吗?
performance - 性能 SVMlight 多标签分类(特征:1000)
我目前正在研究多标签分类。作为分类器,我使用 SVMlight 并将多标签问题二值化。这意味着在我的情况下超过 1000 次分类运行。
我有一个 1000 的固定特征大小,模型的训练现在需要 3 天以上(2 GHz Intel Core 2 Duo,8 GB)。有没有人经历过通常需要这么长时间,或者你能给我任何建议来提高性能吗?你认为换成高性能机器会产生很大的影响吗?
提前致谢!
matlab - How to exclude data with 0 variance in matlab implementation of Linear discriminant analysis
I am using Matlab to classify data using LDA.
I get the following error:
Predictor x741 has zero variance. Either exclude this predictor or set 'discrimType' to 'pseudoLinear' or 'diagLinear'.
I do not wish to use 'pseudoLinear' or 'diagLinear' as it degrades the performance. How can I exclude the zero predictor?
python - 为多标签分类准备训练数据集
我只是按照这里的代码(对 sklearn 0.17 进行了少量修改)。在该示例中,数据只是列表或 numpy 数组。现在我想在磁盘上准备一个玩具训练数据集,并使用datasets.load_files
它来加载它以进行多标签分类。但是,简单地遵循load_files
约定,然后将同一个文件复制到多个文件夹中,不会为dataset.target
.
那么为多标签分类准备数据集的正确方法是什么?
machine-learning - 如何使用机器学习将一组事件作为一个整体进行分类
我想自动化一项日常任务,检查过去 24 小时的应用程序错误列表。
- 每个错误都可以属于六个不同的池之一
- 每个错误都有一个时间戳
- 我事先不知道每个池中会有多少错误
我必须使用如下规则将每个池的状态分类为绿色、黄色或红色:
- 如果在一个池中完全没有错误 -> 绿色
- 如果池中有错误,但特定错误没有持续超过 4 小时连续 -> 黄色
- 如果池中有错误并且特定错误连续持续超过 4 小时 -> RED
使用传统编程或模糊方法很容易解决这个问题,但我想知道如何使用机器学习方法来解决它(如果可能的话)。
到目前为止,在我所看到的分类技术中,有一个由具有某些特征的训练示例组成的训练集。
分类器针对该训练集进行训练,针对测试集进行进一步验证,并且生成的模型用于对新实例进行分类。
所以分类是“针对一个新的单个实例”而不是“整个集合”。
如果我使用,比如说,一个人工神经网络,我将为每个样本的每个特征都有一个节点,并且
- 我通过所有训练样本训练 ANN
- 我针对测试集进行测试
- 我将向生成的模型提供要分类的新案例(一次一个,单独一个)。
我需要自动化的任务是不同的:
对于每个池(我将分别对每个人使用相同的逻辑)我必须将它分类(作为一个整体,而不是新的单个事件/错误)作为绿色、黄色或红色基于时间上分开的可变数量的事件/错误。
我的问题是:这是我可以使用 ML 方法解决的问题吗?如果是,我将如何解决问题(我只需要一些提示,而不是完整的解决方案)。