问题标签 [multilabel-classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3275 浏览

r - R中的多标签分类

我有一个包含 28 个变量(13 个标签和 15 个特征)的训练数据集。一个包含 15 个特征的测试数据集,我必须根据这些特征预测这个测试数据集的标签。我为所有 13 个标签分别制作了 KNN 分类器。

是否有可能将所有这 13 个单独的标签 KNN 分类器组合成一个单一的多标签分类器?

我当前的单标签代码:

我搜索了互联网,包裹mldr似乎是一种选择,但我无法适应我的需要。

0 投票
1 回答
3043 浏览

machine-learning - 使用 Sklearn 进行多标签分类

我曾尝试将 OneVsRest 与 Sklearn 的逻辑回归一起使用,但它为某些样本提供了空标签(即不预测任何结果),即使我没有任何未标记的训练数据。

知道可能是什么原因造成的或如何解决这个问题吗?

0 投票
2 回答
22844 浏览

python - 使用 TensorFlow 的多标签文本分类

文本数据组织为具有 20,000 个元素的向量,例如 [2, 1, 0, 0, 5, ...., 0]。第 i 个元素表示文本中第 i 个单词的频率。

地面实况标签数据也表示为具有 4,000 个元素的向量,例如 [0, 0, 1, 0, 1, ...., 0]。第 i 个元素指示第 i 个标签是否是文本的正标签。文本的标签数量因文本而异。

我有一个用于单标签文本分类的代码。

如何编辑以下代码以进行多标签文本分类?

特别是,我想知道以下几点。

  • 如何使用 TensorFlow 计算准确度。
  • 如何设置判断标签是正面还是负面的阈值。例如,如果输出为 [0.80, 0.43, 0.21, 0.01, 0.32],ground truth 为 [1, 1, 0, 0, 1],则得分超过 0.25 的标签应被判断为正。

谢谢你。

0 投票
2 回答
1951 浏览

python - Scikit-learn 多目标

我离开这个例子是为了用 scikit-learn 创建一个分类器图像。

虽然每张图片都属于一个类别一切正常,但每张图片可能属于几个类别,例如:白天狗的照片,晚上猫的照片,晚上猫和狗的照片等等......我写道:

但我收到此错误:

完整代码

0 投票
1 回答
522 浏览

machine-learning - Azure 机器学习甚至采样

我正在尝试在 Azure ML 中进行一些基本的多标签分类。我有以下格式的一些基本数据:

我的问题是,在我的数据中,某些标签(总共五个标签)的比例过高,因为大约 40% 的数据是标签 1,大约 20% 是标签 2,其余大约 10%。

我想从中抽取一个样本来训练我的模型,以便每个标签都以相等的数量表示。

在标签列的采样模块中尝试了分层选项,但这只是给了我一个与初始数据集中标签分布相同的采样。

知道如何使用模块来做到这一点吗?

0 投票
1 回答
743 浏览

machine-learning - 文本分类:多文本分类与多类文本分类

我对处理多标签分类问题的方法有疑问。

根据文献回顾,我发现一种最常用的方法是问题转换方法。它将多标签问题转化为多个单标签问题,分类结果只是每个单标签分类器的简单联合,使用二元相关方法。

由于单个标签问题可以分类为二分类问题(如果有两个标签)或多类分类问题(如果有多个标签,即标签>2),当前的转换方法似乎都将多标签问题转换为多个二进制问题。但这会导致数据不平衡问题,因为负类可能比正类拥有更多的文档。

所以我的问题是,为什么不转化为多个多类问题,然后应用直接多类分类算法来避免数据不平衡问题。在这种情况下,对于一个测试文档,每个训练的单标签多类分类器将预测是否分配标签,所有此类单标签多类分类器预测结果的并集将是该测试文档的最终标签集。

综上所述,与将多标签分类问题转化为多个二分类问题相比,将多标签分类问题转化为多个多类分类问题可以避免数据不平衡问题。除此之外,以上两种方法的一切都保持不变:您需要构造|L|(|L|表示分类问题中不同标签的总数)单标签(二元或多类)分类器,您需要准备 |L| 训练数据集和测试数据集,您需要在测试文档上测试每个单标签分类器,每个单标签分类器的预测结果的并集是测试文档的最终标签集。

希望有人能帮我解惑,非常感谢!

0 投票
1 回答
1953 浏览

scala - Spark 中梯度提升树的多类分类:仅支持二元分类

在尝试使用 Spark mllib 中的梯度提升树运行多类分类时。但它给出了一个错误“仅支持二进制分类”。因变量有 8 个水平。数据有 276 列和 7000 个实例。

运行模型后报错:

有没有其他方法可以做到这一点?

0 投票
0 回答
583 浏览

text - 如何为多标签文本分类创建 ARFF 数据集

下午好,

好吧,我想执行一个多标签文本分类,所以,我选择 MEKA(Weka 的扩展)来执行这个任务。但是,我需要将文档转换为单词向量,我使用 GUI Weka 但您知道它只执行二元分类,因为我倾向于使用 MEKA 来执行此任务,问题是我如何创建 arff这里有多个标签的文件是一个例子:这是文本

FMNH(2) 添加到哈维弧菌萤光素酶在 2A°C 在十四醛的存在下导致形成与生物发光的光谱分布无法区分的高荧光瞬态物种。生物发光在 1.5 秒内达到最大强度,并以复杂的方式衰减,指数成分为 10(-1) s(-1)、7 x 10(-3)S(-1)。和 7 x10(4)s(-1)。

标签是:

“FM”、“Fl”、“Ki”、“Luc”、“Lum”、“时间因素”

我想得到的结果:

@attribute L-class {Luc, Lum, Limb,...}

@attribute F-class {FM, Fl, Foot,...}

@attribute o-class{Ki, TimeFactors, Adult, Aged, ...}

@attribute All_words 频率

@数据

FM,Fl,Ki,Luc,Lum,TimeFactors,2,4,6,8,8,7,4,0,1,2,2....

首字母缩略词是标签,数字是文本中每个术语出现的频率。有人可以帮助我,我将非常感激。

0 投票
2 回答
2341 浏览

python - 使用 NLTK、scikit-learn 和 OneVsRestClassifier 开启多标签分类

免责声明:我对 AI、Python、NLTK 和 scikit-learn 还是很陌生。

我正在尝试训练分类器将一组文档分类为一组标签。

我正在使用 NLTK 包装器与 scikit-learn 的 OneVsRestClassifier 对话。

这适用于多类分类,分类器尝试仅将文档分类为标签。准确度很好,但我希望分类器为文档分配 0、1 或更多标签。我怎样才能做到这一点?

可悲的是,我不能只初始化分类器,告诉它是一个多标签分类器,文档说:

该策略也可用于多标签学习,其中分类器用于预测多个标签,例如,通过拟合一个二维矩阵,其中如果样本 i 具有标签 j,则单元格 [i, j] 为 1,否则为 0。

这对我来说不是很清楚,因为我不熟悉这种语言。我有一种感觉,我必须以这样一种方式塑造我的训练集,以便分类器能够理解我希望它对我的数据进行多标签分类?如果是,如何?

我试图在数组中提供标签,如下所示:

这没有按预期工作并提出:

0 投票
0 回答
687 浏览

python - 多级逻辑回归

我想使用逻辑回归进行分类任务。我有一组新闻产品描述及其标题的数据集。我还有一个产品类别和子类别的层次结构树。层次树的深度为 6。当然,每个产品都会有多个标签,从子节点一直向上

我知道如何对单级使用逻辑回归,但我不知道如何在 level2 中使用 level1 中的分类器,直到到达叶节点。

我更喜欢 python,但我可以使用 Matlab 和 Java。