问题标签 [multilabel-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何检查 200 万条推文的分类结果?
我有 200 万条推文,我需要将其分为三类:
- 喜欢产品;
- 不喜欢;和
- 对产品的建议。
但是你如何检查你的分类结果呢?我是不是应该随机选择一些推文,手动阅读它们的内容并检查它们的内容是否与给它们的分类标签匹配?或者有更好的方法吗?
我听说有一些企业级软件包可以进行多级分类,但是有人如何证明他们的结果是有意义的,而不需要手动检查数百万条记录并检查分类?
machine-learning - 在 scikit-learn 中,多标签模型的得分优于具有二元标签的相同模型
我有一个 scikit-learn 模型,它简化了一点,如下所示:
现在,f1_score1
总是比f1_score2
。换句话说,多类标签比二元标签(从相同的多类标签生成)得分更高。有什么原因吗?这是预期的吗?
我有大约 70 个训练和测试文件和 36 个类(不是上面示例中的三个)。
machine-learning - Multi-label classification involving range of numbers as labels
I have a classification problem where my labels are ratings, 0 - 100, with increments of 1 (e.g. 1, 2, 3, 4,).
I have a data set where each row has a name, text corpus, and a rating (0 - 100).
From the text corpus I am trying to extract features that I can feed into my classifier, which will output a corresponding rating per row (0 - 100).
For feature selection, I am thinking of starting with basic bag of words. My question lies in the classification algorithm, however. Is there a classification algorithm in sci-kit learn that supports this kind of problem?
I was reading http://scikit-learn.org/stable/modules/multiclass.html, but the algorithms described seem to support labels that are completely discrete, whereas I have a set of continuous labels.
EDIT: What about the case where I bin my ratings? For example, I can have 10 labels, each 1- 10.
classification - 多类朴素贝叶斯
我在数据挖掘方面没有太多经验。我的问题是关于多类朴素贝叶斯分类。如果我想在 3 个标签输入和 3 个输出类上实现这个算法,我需要这个领域的一个简单示例。我的另一个问题是,如果我使用 2 类朴素贝叶斯(例如:正和负)并且有两个输出类,但我需要 4 个输出类(非常正、正、负、非常负),我可以使用阈值吗?一个积极的结果,如果输出大于阈值,这意味着它在非常积极的类别中?
java - 用于文档分类的朴素贝叶斯和 SVM java 实现
我正在尝试对文本格式的法律案例文档进行分类,在 Civil、Land、Criminal 等不同的文件夹中,我打算使用 Naive Bayes 作为 Vectoriser 从文本文档中获取向量,将其输入到 SVM 以分类使用 javaml 的文档,我已经实现了像词干提取这样的预处理,我使用了http://eprints.nottingham.ac.uk/2995/1/Isa_Text.pdf中所见的朴素贝叶斯公式来计算先验概率、可能性、证据和后验概率,我假设后验概率是要输入 SVM 的向量,但我无法格式化输出以输入 SVM 库。
我需要我能得到的所有帮助,我希望我做对了。
我有其他法律案例作为我想分类到正确类别的测试集。
c++ - 具有概率估计的多类图像分类
我的目标是通过概率估计进行多类图像分类。
到目前为止,“单标签”分类与 OpenCV C++ 库提供的所有强大功能开箱即用地运行良好。目前我正在使用带有本地 Sift 描述符和 SVM 分类的 BoW 描述符。到目前为止,一切都很好。但现在我需要对图像进行概率估计。因此,我需要的不是“图像 A 是 X 类”,而是输出“图像 A 具有 50% 的可能性 X 类、10% 的 Y 类、30% 的 Z 类”等,并对所有类进行估计。
不幸的是,我在机器学习方面没有那么胜任。我开始调查这个问题,现在我的大脑很痛。我的菜鸟问题:
- 是 libsvm 选项
-b probability_estimates
是我正在寻找的吗? - 有没有办法仅使用 OpenCV 来做到这一点?(如果在使用 OpenCV 的多类分类中获取 SVM 分类分数是唯一的方法,有人可以向我解释一下输出吗?)
- 您对如何实现我的目标还有其他建议吗?要阅读的论文,要使用的图书馆?
任何提示表示赞赏。谢谢!
PS:我知道以前在这里回答过很多类似的问题,但对我来说,没有一个能真正抓住我的观点。
python - 混淆矩阵“无法处理多类和未知的混合”
我的混淆矩阵显示了一个我无法理解的错误。我想要一个混淆矩阵来显示两个数组之间的混淆,y_pred
并且y_test
.
错误是:
错误是什么意思?当我打印出y_pred.shape
和y_test.shape
时,我得到相同的形状,(318L)。两个数组的值都在 0 到 29 之间。
algorithm - Matlab中如何对矩阵数据进行分类
通常分类算法使用特征向量,但在这种情况下,我需要使用特征矩阵。
我的数据集由 50 个矩阵组成(矩阵大小:N x 4,其中 4 是多个特征。每个矩阵的行数N不同)。有 5 个类,一个矩阵表征一个类(所以在我的例子中,10 个矩阵属于一个类)。
如何处理这些输入数据?我将使用 SVM 对该数据集进行分类。因此,如果您推荐如何使用我的输入数据进行此算法,这将非常有帮助。
java - java中使用libsvm的文档分类
我正在使用 libsvm 库对简历进行文档分类。我有多份简历,我需要对它们进行分类。在这种情况下,我需要多标签分类还是多类分类。我应该考虑以上哪个选项,还请提出一种方法来做到这一点?
matlab - 在 Matlab 中使用 fitcsvm() 函数存储 ClassificationSVM 的数组/矩阵会给我一个错误,我该如何解决?
我正在尝试使用 Matlab 中的 SVM 库执行多标签分类。有一个解决方案可以使用这里称为 svmtrain() 的“旧”SVM 函数。基于此,我使用 fitcsvm() 创建了自己的函数。但是,当我尝试存储经过 SVM 训练的模型时,出现以下错误:
使用 classreg.learning.internal/DisallowVectorOps/subsasgn 时出错(第 28 行)
您不能使用 () 索引分配给 double 类的对象。
multiClassSVM>(parfor body) 中的错误(第 16 行)
SVMModel(i) = SVMModelHolder;
multiClassSVM 中的错误(第 8 行)
平均 i=1:9
如何将多个 ClassificationSVM 模型存储在一个变量中?
如果有帮助,代码如下:
我将不胜感激任何帮助,或者任何以完全不同的方式解决问题的建议,如果这是要走的路。