问题标签 [multilabel-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - Vowpal Wabbit 总是相同的结果
我正在使用大众来尝试预测多类。最奇怪的是,我使用哪个参数都没有关系,结果总是一样的。
应该发生这种情况,也许是因为我的数据?
细节:
大约 90k 行数据。一行数据:
它是一个多类问题,所以命令行是:
改变某些东西的单个参数是从--ect 到--oaa。我尝试添加以下内容,但没有更改最终验证值:
- -c -k --passes 20 (一直到 8)
- --l1 或 --l2
- --power_t
- --ignore D 或 --ignore d(或 s 或 su...)
结果总是
我在这里缺少什么吗?
classification - 使用 xgboost 包的分类模型
作为 xgboost 模型中的有效参数,我将字符转换为因子变量(例如“A”“B”“C”),并进一步转换为数字因子变量(例如“0”“1”“2”)。我可以使用哪个函数将数字因子转换回因子变量?我必须在分类模型中使用它。
scala - Spark 多类分类 - 分类变量
我有一个数据集作为 csv 文件。它有大约 50 列,其中大部分是分类的。我计划使用新的测试数据集运行 RandomForest 多类分类。
这样做的痛点是处理分类变量。处理它们的最佳方法是什么?我阅读了 Spark 网站http://spark.apache.org/docs/latest/ml-guide.html#example-pipeline中的 Pipeline 指南,它从硬编码序列创建了一个 DataFrame,还具有空格分隔的字符串。这看起来非常具体,我想在他们如何使用 HashingTF 使用我拥有的 CSV 文件的功能方面实现相同的目标。
简而言之,我想实现与链接中相同的功能,但使用 CSV 文件。
有什么建议么?
编辑:数据-> 50 个特征,100k 行,其中大部分是字母数字分类我对 MLlib 很陌生,因此很难从 CSV 中为我的数据找到合适的管道。我尝试从文件中创建一个 DataFrame,但对如何对分类列进行编码感到困惑。我的疑惑如下
python - Scikit Learn 多标签分类:ValueError:您似乎正在使用旧的多标签数据表示
我正在尝试使用 scikit learn 0.17 和 anaconda 2.7 来解决多标签分类问题。这是我的代码
这是我的数据的样子
训练
测试
但我得到了错误
这是什么意思?
这是完整的堆栈跟踪
我该如何解决?我需要更改数据的格式吗?为什么 gridSearchTS.fit(Xtrain, ytrain) 失败?如何使 X 和 y 适合拟合函数?
编辑
我试过了
但现在我明白了
上
我也必须对 X 进行二值化吗?为什么我需要将 X 维度转换为浮点数?
python - Python Sci-Kit 学习:多标签分类 ValueError:无法将字符串转换为浮点数:
我正在尝试使用 sci-kit learn 0.17 进行多标签分类,我的数据看起来像
训练
测试
到目前为止我的代码
但现在我明白了
在
我也必须对 X 进行二值化吗?为什么我需要将 X 维度转换为浮点数?
python - Python多项逻辑回归:ValueError:输入形状错误(326L,559L)
我正在尝试为多标签分类问题创建 LogistcRegression 分类器
但我得到了错误
整个堆栈跟踪是
我应该如何转换/格式化我的 X 维度?
python-2.7 - OnVsRestClassifier 给出 0 精度
我正在尝试解决多标签分类问题
这样,我总是得到 0 准确度。请指出我做错了什么。我是多标签分类的新手。这是我的数据的样子
编辑
感谢您的帮助@lejlot。我想我已经掌握了窍门。这是我尝试过的
所以我的输入数据看起来像
所以这只是我创建的一些测试数据。然后我做
这给了我
然后
给我
在这里我想知道为什么有6列?不应该只有3个吗? 无论如何,然后我还创建了一个测试数据文件
所以这看起来像
我有PredTags
专栏来检查准确性。所以最后我适合并预测为
这给了我
现在,我怎么知道正在预测哪些标签?我如何检查我的PredTags
专栏的准确性?
更新
非常感谢@lejlot :) 我也设法获得了如下的准确性
我也只需要对测试集预测列进行二值化:)
python - Python sklearn OneVsRestClassifier:评分函数给出ValueError
我正在研究一个多标签分类问题
给我
然后我根据需要识别和转换列
给我
看看我的数据,这里的 y不应该只有 8 列吗?为什么有 10 列?
然后我拆分、变换、拟合并得分
但我得到了错误
这个错误是什么意思?可能是数据吗?我已经使用具有相似(相同列格式和数据格式)数据的完全相同的算法,并且没有问题。另外,为什么 fit 函数有效?
我在这里做错了什么?
编辑
所以在我的标签列中,数据被读取为字符串。因此 y 中有两个额外的列。我试过了
以适应多个值,但我仍然是同样的错误。至少我得到了正确的 y 列数。
python - Python sklearn 多标签分类:用户警告:标签不是 226 存在于所有训练示例中
我正在尝试一个多标签分类问题。我的数据看起来像这样
这是我的代码
代码运行良好,但我不断收到这些消息
这是什么意思?这是否表明我的数据不够多样化?
python - 使用 scikit 处理多标签数据的问题
我使用以下代码进行多标签数据分类:-
======输出=====
最后两个是错误预测的,它们都应该是 ['New York', 'London'] 的 [0,0,1]
所以我有这些问题:- 1.] 我的代码到底有什么问题 2.] 这是处理“多标签”数据的正确方法吗?或者有没有其他更好的方法。因为我可以在互联网上找到关于“多标签”数据的所有这些和一两个代码。而对于二进制分类有数千个。请帮助我