问题标签 [multilabel-classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
9393 浏览

python-2.7 - 使用 sklearn 进行多标签特征选择

我正在寻找使用 sklearn 对多标签数据集执行特征选择。我想获得标签的最终特征集,然后我将在另一个机器学习包中使用它们。我打算使用我在这里看到的方法,它分别为每个标签选择相关特征。

然后我计划使用以下方法提取每个标签包含的特征的索引:

现在,我的问题是,如何选择要包含在最终模型中的选定功能?我可以使用每一个独特的特征(包括只与一个标签相关的特征),或者我可以做一些事情来选择与更多标签相关的特征。

我最初的想法是创建一个选择给定特征的标签数量的直方图,并根据视觉检查确定阈值。我担心的是这种方法是主观的。是否有更原则的方式使用 sklearn 为多标签数据集执行特征选择?

0 投票
1 回答
152 浏览

rapidminer - Rapidminer 分类

我正在尝试解决一个简单的分类问题,其中标签有 12 个不同的级别,并且需要将每个示例分类为这 12 个级别中的一个。但是,我希望我的输出看起来像参考图像:

http://i.stack.imgur.com/49USG.png

这里; 假设我设置了 20% 的置信度阈值;我希望我的输出包含每个 id 的所有标签,这些标签高于 20% 并且是有序的(最高置信度优先)。如果没有一个标签超过 20%;然后是默认标签。更具体地说,Rapidminer 中是否有任何现有的运营商可以提供这样的输出?

0 投票
1 回答
1204 浏览

machine-learning - OneVsRestClassifier(svm.SVC()).predict() 给出连续值

我正在尝试在 iris 和 titanic 等数据集上使用 y_scores=OneVsRestClassifier(svm.SVC()).predict() 。问题是我将 y_scores 作为连续值。就像我得到的 iris 数据集一样:

我正在将 OneVsRestClassifier 用于其他分类器模型,例如 knn、randomforest、naive bayes,它们以以下形式给出适当的结果

虹膜数据集上的等。请帮忙。

0 投票
1 回答
1094 浏览

c++ - 使用两个不同 LMDB 的多标签

我是 caffe 框架的新手,我想使用 caffe 来实现多标签的训练。我使用两个 LMDB 分别保存数据和标签。数据 LMDB 的维度为 Nx1xHxW,而标签 LMDB 的维度为 Nx1x1x3。标签是浮点数据。

文本文件如下:

我使用 C++ 创建 LMDB。我的 main.cpp:

可以成功创建两个LMDB。但是当我用caffe用两个LMDB来实现训练的时候,结果总是错的。损失层是EUCLIDEAN_LOSS,损失不能下降。我不知道可以创建两个LMDB的代码是否错误。谁能帮我 ?无论如何谢谢。

0 投票
1 回答
221 浏览

classification - 使用 StringToWordVector 和 SMO 的 Weka 分类项目

我正在做一个项目,其中我有大约 18 个类,总共有大约 4,000 个实例。我有 7 个属性,1 个是字符串数据,其余的是名义上的。我目前正在使用 Platt 的 SMO 分类器对字符串属性使用 StringToWordVector,取得了不错的效果。我们即将实现这一点,但我想尝试其他分类器,以防万一我可以从中获得更好的结果。有什么建议么?

另外,我应该在这么多类中使用 MultiClassClassifier 吗?如果是这样,我应该在其中尝试哪些设置?

任何建议表示赞赏!

0 投票
1 回答
253 浏览

r - R中的链分类器

有没有办法在多标签分类问题中执行链分类。我使用 mlr 包创建了一个二进制相关模型,它使用学习者来实现相同的目标。但是所有二元相关的分类模型都是相互独立的,没有考虑变量的相互依赖关系。如果我可以执行链分类以及二进制相关方法来改进我的模型,那将非常有帮助。

0 投票
1 回答
1369 浏览

python - 通过 GridSearchCV 和 OneVsRestClassifier 使用自定义分类器进行多标签分类

我正在尝试使用 OneVsRestClassifier 对一组评论进行多标签分类。我的目标是将每条评论标记到可能的主题列表中。我的自定义分类器使用手动管理的单词列表及其在 csv 中的相应标签来标记每个评论。我正在尝试将从词袋技术获得的结果与使用 VotingClassifier 的自定义分类器结合起来。这是我现有代码的一部分:

我的目的是使用这个由几个启发式方法获得的手动策划的单词列表来改进仅应用词袋获得的结果。目前,我正在努力寻找一种方法来了解在预测时对哪个标签进行分类,因为使用 OneVsRestClassifier 为每个标签创建了 CustomClassifier 的副本。

0 投票
2 回答
2054 浏览

python - 使用条件随机场的多标签分类

是否可以使用条件随机字段进行多标签分类?我在https://pystruct.github.io/user_guide.html看到了一个 python CRF 实现,但想不出一种方法来进行多标签分类。

0 投票
0 回答
22 浏览

data-structures - How can I efficiently store website URLs for web classification, where each website can have multiple class labels?

I want to store a large number of websites, where each website can have multiple class labels. Ideally, I'd like to have a set of primary labels (entertainment, news, sports, etc.) for each website, and each of those primary labels can have a number of sub-classes (sports -> news and media -> ...). I want to be able to quickly access data by ether it's class or the website (or it's domain). What is the best data-structure to accomplish this?

0 投票
1 回答
151 浏览

neural-network - 为 caffe 创建带有浮点数的 hfd5

我想提供标签的 caffe 向量(多标签回归问题),所以我使用以下链接来创建 hdf5 文件。
使用此代码,我创建了一个image_list.txt包含文件路径和每行中的浮动标签的路径,例如

但它似乎只适用于整数标签。
当我运行demo.m以下错误时:

使用从文件中读取整数时出错dataread
(第 1 行,第 3 字段)==> .9997 0.0236 -0.0082 -0.0231 0.9980 0.0588 0。