问题标签 [multilabel-classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
229 浏览

machine-learning - 需要一个标签(输出基数)多于特征(输入基数)的数据集

对于分类或回归问题,如果

“X”是大小为 m X n 的输入矩阵,“Y”是大小为 m X k 的预期输出/标签矩阵。

然后我需要一个 k >= n 的数据集。(如果也可能,“Y”应该是高密度标签)

这就是标签/输出的数量超过输入特征空间的地方。你能给我推荐一个这样的数据集吗?

问候,

0 投票
1 回答
3436 浏览

python - 使用 scikit learn 对文本进行多标签分类

我正在尝试使用 scikit-learn 来创建一个多标签分类器。我是 scikit learn 的新手,我不知道是否可以为文本创建分类器。我的意图是使用 SVM 多标签,但不知道我是否必须调整文本来训练分类器,否则你可以直接使用文本。有谁知道有关此主题的一些文档?

0 投票
1 回答
6941 浏览

python - 多标签分类的交叉验证错误

我正在使用“multiclass.OneVsRestClassifier”和“cross_validation.StratifiedKFold”。当我对多标签问题进行交叉验证时,它失败了。是否可以对多标签问题 scikit-learn 执行交叉验证?

我认为问题出在类标签列表的元组中,例如([1]、[2]、[2]、[1]、[1,2]、[3]、[1,2,3]。.. )

我认为此错误的代码如下:

0 投票
0 回答
1593 浏览

r - R中的随机森林(多标签分类)

我对 R 相当陌生,试图实现随机森林算法。

我的训练和测试集有 60 个特征,格式如下:

训练: feature1,feature2 .. feature60,Label

测试: FileName,feature1,feature2 ... feature60

训练样本

测试样本

所以到目前为止我在 R 中所拥有的是这个,

所以我有点卡住了。我想最终使用类似的东西,

要获得以下形式的输出:

文件名、标签 1、标签 2、标签 3 .. 标签 9

名称1, 0.98, 0, 0.02, 0, 0 .. 0

(基本上是每个标签概率的文件名)

任何帮助表示赞赏。谢谢你。

0 投票
1 回答
1010 浏览

cluster-analysis - 我使用 Accord.Net K-Means 分类得到不一致的结果

我有一个测试程序不能为 Accord.Net K-Means 提供一致的结果。

我附上了一个可在 Visual Studio 2013 中运行的可重现测试程序。

该程序是一个控制台应用程序,要重现您需要参考的结果:

来自 Accord.Net 2.15 库。

当我多次运行该程序时,每次都会得到不同的结果。该程序使用经典的 Fisher Iris 数据集。数据集有 150 行,我将数据拆分为 120 行训练数据和 30 行测试数据。

当我运行该程序时,我可能会在 30 个中得到正确分类的 26 个。再次运行它可能会产生 30 次中的 2 次正确。

例如:

我想知道我是否正确使用了 Accord.Net。任何帮助将不胜感激。

我的程序是:

0 投票
0 回答
124 浏览

matlab - 使用 Matlab 编码深度神经网络时遇到问题

我试图构建一个 5 层的神经网络来对 3 个类、178 个实例和 13 个特征数据集进行分类。基本上我遵循这里给出的指导方针。我已经在 Matlab 中编写了自己的代码,它可以成功运行。然而,训练结果却非常糟糕。该模型保持预测与输出相同的类别。我找不到我的代码哪里出了问题,或者模型不适合数据?有人可以帮我找出问题所在吗?非常感谢。

我的 Matlab 训练代码如下所示:

sigmoid 和 d_sigmoid 函数如下所示:

预测代码如下所示:

0 投票
1 回答
96 浏览

machine-learning - 4类分类的哪些统计措施?

我有一个包含 4 个类的分类任务,我用机器学习分类器(SVM 等)解决了这些问题。

哪些统计措施可用于 4 个类别?我肯定会使用 p 值(使用置换测试),但我需要更多。

一些有趣的衡量标准是真阳性率、真阴性率、阳性预测值、阴性预测值,在 ROC 曲线下,在 PR 曲线下……但我认为这仅适用于 2 个类别。

0 投票
1 回答
337 浏览

java - 多类分类的 Java-ML 结果解释

我对分类准确性的理解始终是“#正确分类的实例除以#instances”。使用 Java-ML 并将 LibSVM 应用于多标签问题,我得到每个 CLASS 的准确度(和其他测量值)。我无法弄清楚它们是如何相关的以及整体准确性是多少。

例如,对于我的 3 类问题,我得到以下结果:

我的代码如下所示:

0 投票
1 回答
671 浏览

python - Scikit 使用 Out Of Core 学习多标签分类

我是 Scikit Learn 的新手,我正在从事一个涉及对大约 70000 个网页 ~250MB 文件进行多标签分类的项目。由于文件的大小,我不得不使用 out of core 分类。这些页面的标签是 dmoz 类别。因此,每个页面可以有多个标签。

我通过改编 scikit-learn 的核心示例创建了下面的代码。但是,下面的代码只为每个文档打印一个标签。

1)有什么方法可以按概率打印每个文档的前 5 个标签?我将不胜感激对代码的任何指针/修改。

2) 鉴于 OneVsRest 不提供 partial_fit 方法,什么是支持此任务的多标签分类的好分类器

file_training_combined.csv 中的文本如下所示

这只是 CSV 文件中的一行。我正在使用第 6 列中的文本,标签位于第 7 列中,由 | 分隔。

0 投票
1 回答
703 浏览

machine-learning - 哪些分类器提供权重向量?

存在哪些机器学习分类器在学习阶段之后提供权重向量?我知道 SVM、逻辑回归、感知器和 LDA。还有更多吗?

我的目标是使用这些权重向量来绘制重要性图。