问题标签 [multilabel-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何使用 Sklearn 的 cross_validation(多标签分类)获得每个标签的 F1 分数
我正在尝试使用 sklearn 的 cross_val_score 函数(http://scikit-learn.org/stable/modules/cross_validation.html)进行多标签分类。
我想要返回每个标签的 F1 分数。这种方法适用于第一次折叠,但之后会出现错误:
我假设引发此错误是因为 cross_val_score 期望返回一个数字。有没有其他方法可以使用 cross_val_score 来获取每个标签的 F1 分数?
r - 如何将多标签数据框滚动到 R 中的单列中
我有以下数据框originalData
我想得到以下结果
我相信我的例子比冗长的解释更清楚。万一不是。仅当临时结果的值为 TRUE 时,我想将所有结果(在我的情况下为 Y1 和 Y2)滚动到单个 YCOMBIN 列中。这样做,如果 ID 在结果中具有超过 1 个 TRUE 值,我显然可能会重复 ID 和所有预测变量(X1 和 X2)。
达到预期结果的最佳方法是什么?
数据源:
python - 如何在 Scikit-learn 中为多标签处理响应 OneVsRestClassifier
我是 Scikit-learn 和分类的新手。我的任务是一个多标签分类问题。据我了解predict
,返回的数组包含与n
样本中的特征数量相同的元组。这是什么意思?如何获得严格的顺序和严格的预测值数量?因为x_test = X_train[0]
输出Result [('a', 'c'), (), ()]
和x_test = X_train[0]
输出Result [('a',), (), ()]
python - Scikit-learn 多标签分类
我正在尝试使用 Scikit-learn 了解文本的多标签分类,我正在尝试将 scikit 附带的初始示例教程之一改编为使用维基百科文章作为训练数据的语言分类。我正在尝试在下面实现这一点,但代码仍然为每个我希望最后一个预测返回 fr, en 的地方返回一个标签
任何人都可以就启用多标签分类的正确方法提出建议。
回报 -
“这是一个语言检测测试”的语言。是“恩”
“Ceci est un test de détection de la langue”的语言。是“fr”
“Dies ist ein Test, um die Sprache zu erkennen”的语言。是“德”
“Bonjour Mon ami。这是一个语言检测测试”的语言。是“恩”
python - 使用动态权重进行集成
我想知道是否可以在 sklearn 的 VotingClassifier 中使用动态权重。总的来说,我有 3 个标签 0 = 其他,1 = 垃圾邮件,2 = 情感。通过动态权重,我的意思是:
我有 2 个分类器。第一个是随机森林,它在垃圾邮件检测方面表现最好。另一种是 CNN,它在主题检测方面表现出色(Other 和 Emotion 之间有很好的区别)。我想要的是一个 VotingClassifier,它在分配标签“Spam/1”时赋予 RF 更高的权重。
VotingClassifier 是正确的方法吗?
此致,
斯特凡
python - Sklearn - 如何预测所有目标标签的概率
我有一个带有目标变量的数据集,该变量可以有 7 个不同的标签。我的训练集中的每个样本只有一个目标变量标签。
对于每个样本,我想计算每个目标标签的概率。所以我的预测将包括每行的 7 个概率。
在 sklearn 网站上,我阅读了有关多标签分类的信息,但这似乎不是我想要的。
我尝试了以下代码,但这仅给每个样本一个分类。
有人对此有什么建议吗?谢谢!
machine-learning - 在 scikit-learn 中使用多标签随机森林的没有标签分配的样本
我正在使用 Scikit-Learn 的 RandomForestClassifier 来预测文档的多个标签。每个文档有 50 个特征,没有文档有任何缺失的特征,并且每个文档至少有一个与之关联的标签。
但是,我注意到在预测之后,有些样本没有分配标签,即使这些样本没有丢失标签数据。
predict_proba 的结果与 predict 的结果一致。
上面的每个输出都表明,对于每个标签,较高的边际概率已分配给未出现的标签。我对决策树的理解是,在预测时必须为每个样本分配至少一个标签,所以这让我有点困惑。
多标签决策树/随机森林能够不为样本分配标签是预期的行为吗?
更新 1
每个文档的特征是根据主题模型属于某个主题的概率。
标签数据使用 MultiLabelBinarizer 格式化,如下所示:
更新 2
上面 predict_proba 的输出表明,没有类的分配可能是树对标签投票的产物(有 20 棵树,所有概率大约是 0.05 的倍数)。但是,使用单个决策树,我仍然发现有些样本没有分配标签。输出看起来与上面的 predict_proba 相似,因为对于每个样本,都有一个给定标签被分配或不分配给样本的概率。这似乎表明决策树在某些时候将问题转化为二分类,尽管文档说决策树利用了标签相关性。
python - Python scikit 学习多类多标签性能指标?
我为我的多类多标签输出变量运行了随机森林分类器。我得到了低于输出。
现在我想检查我的分类器的性能。我发现对于多类多标签“汉明损失或 jaccard_similarity_score”是很好的指标。我试图计算它,但我得到了价值错误。
我尝试了以下行:
谢谢,
python - sklearn - 从文本文档中预测多标签分类中的前 3-4 个标签
我目前MultinomialNB()
设置了一个分类器,CountVectorizer
用于从文本文档中提取特征,虽然效果很好,但我想使用相同的方法来预测前 3-4 个标签,而不仅仅是前一个标签。
主要原因是有 c.90 个标签,数据输入不是很好,导致最高估计的准确率为 35%。如果我可以向用户提供前 3-4 个最有可能的标签作为建议,那么我可以显着提高准确率覆盖率。
有什么建议么?任何指针将不胜感激!
当前代码如下所示:
encoding - 二进制相关性和一种热编码之间的区别?
二元相关性是一种众所周知的处理多标签分类问题的技术,我们为特征的每个可能值训练一个二元分类器:
http://link.springer.com/article/10.1007%2Fs10994-011-5256-5
另一方面,一个热编码器 (OHE) 常用于自然语言处理中,用于对将多个值作为二进制向量的分类特征进行编码:
http://cs224d.stanford.edu/lecture_notes/LectureNotes1.pdf
我们可以认为这两个概念是同一个概念吗?还是有技术差异?