问题标签 [multiclass-classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
5264 浏览

r - R中的任何包都可以做多类、过采样、欠采样、Both和SMOTE?

我正在寻找可以进行多类过采样、欠采样或两种技术的包。我尝试使用ROSE包,但它仅适用于二进制类。

我的目标变量有 4 个类,并且有 %。“0”-70% “1”-15% “2”-10% “3”-5% “4”-5%

0 投票
1 回答
709 浏览

java - 如何在 DL4J 中配置神经网络以产生多个二进制输出

我正在学习DL4J,我想配置一个可以接受双精度值元组并生成二进制值元组的网络,其中多个值可以设置为 1,其他设置为 0。在语言中神经网络,我会说这是多类单热编码吗?

例子:

等等

我试过这个:

但我似乎在输出中得到了小数值,就好像网络试图平均分配激活一样。如何配置网络以使其给我多个 1 和 0 作为分类?

例如,如果输出是 3 维的,我想要这个:

真的是这样:

0 投票
1 回答
5587 浏览

apache-spark - Spark ML 2.0 - 使用类似于 spark.mllib 的 spark.ml 库提供的评估指标

我们正在运行一个创建 3 个分类器的 RandomForest 模型,我们希望计算 AUC 以用于评估我们的模型,而不是使用准确性

如果我们使用 spark.ml,会有一种方法吗?目前我们调用 MulticlassClassificationEvaluator 并使用度量精度。在清单中,它没有 auc 作为它的一部分,而只有以下内容: 指标:

想知道是否有关于如何计算火花 AUC 的示例?

我们正在运行 Spark 2.0,这是我们正在使用准确度指标进行评估的当前设置

0 投票
2 回答
3329 浏览

python - 解释多类逻辑回归中的预测概率

我有一个如下所示的数据集,其中 A、B、C、D、E 是特征,“T”是目标变量。

现在,我使用 Scikit Learn 应用了多类逻辑回归分类器,并获得预测值和概率矩阵:-

现在只想问我如何解释结果概率,1)据我所知,python 默认情况下将事件概率设为 1。所以如果是这种情况,0.35 是否被认为是事件 1 的概率? 或 2) 值 0.35 是不是第一种情况属于“3”类的可能性?我如何计算剩余两个班级的概率。就像是:-

0 投票
1 回答
225 浏览

tensorflow - 多个正分类的 TensorFlow 损失计算

我的标签看起来像这样

这意味着1, 4匹配的样本输入中存在类。

  1. 如何为这样的标签创建一次性编码标签?
  2. 哪种损失函数更适合这种情况(sigmoid 交叉熵、softmax 交叉熵或稀疏 softmax 交叉熵)?
0 投票
1 回答
1072 浏览

tensorflow - Tensorflow tf.metrics.accuracy 多标签始终为零

我的标签如下所示:

换句话说,相应的样本中存在第 1、4、5 类。我相信这叫做软课

我正在计算我的损失:

根据 Tensorboard 的说法,正如预期的那样,损失随着时间的推移而减少。但是,准确度为零:

使用软类时如何计算模型的准确性?

0 投票
1 回答
853 浏览

random-forest - 多类随机森林

如果决策树分为 2 类,随机森林如何在分类中创建多个桶?您可以发布有关该理论的任何链接吗?它背后的理论是什么?

0 投票
1 回答
1588 浏览

r - 使用 R 的多类文本分类

我正在研究一个多类文本分类问题。我已经为此建立了一个梯度提升模型。

关于数据集:

数据集有两列:“Test_name”和“Description”

Test_Name 列中有六个标签,“Description”列中有它们对应的描述。

我对这个问题的态度

数据准备

  1. 创建一个用于描述的词向量。

  2. 使用词向量构建语料库。

  3. 预处理任务,例如删除数字、空格、停用词和转换为小写。

  4. 构建文档术语矩阵 (dtm)。

  5. 从上面的 dtm 中删除稀疏的单词。

  6. 上述步骤导致计数频率矩阵显示每个单词在其对应列中的频率。

  7. 将计数频率矩阵转换为二进制实例矩阵,它将文档中单词的出现次数显示为 0 或 1,1 表示存在,0 表示不存在。

  8. 将原始笔记数据集中的标签列附加到转换后的 dtm。标签列有 6 个标签。

建筑模型

使用 H2o 包,构建 gbm 模型。

获得的结果

其中四个类标签分类良好,但其余两个分类不佳。

下面是输出:

器官功能测试和患者相关的错误分类错误相对较高。我怎样才能解决这个问题?

0 投票
1 回答
409 浏览

machine-learning - 预定义的多文本分类

朋友们,我们正在尝试解决一个问题,即我们只有评论转储,但 .csv 文件中没有评级。.csv 中的每一行都是客户对特定产品的评论,例如电视。

在这里,我想将该文本分类到该产品的领域专家给出的以下预定义类别中:

  • 质量
  • 顾客
  • 支持
  • 正面反馈
  • 价格
  • 技术

部分评论如下:

  1. 最近买了这个产品,感觉是市场上不错的产品。
  2. 一直在等待这个产品,但很失望
  3. 建造质量不是那么好
  4. LED 屏幕画面完美。喜欢这个产品
  5. 该死!2个月前买的这台电视,猜猜看,屏幕显示一条直线,LED屏幕质量差
  6. 这有非常复杂的选项,这台电视的文档不是那么用户友好
  7. 我无法使用我的智能设备连接到这台电视。根本行不通
  8. 客户支持非常差。我不推荐这个
  9. 效果很好。很棒的产品

现在,有 10 位不同客户的 10 条以上评论,我如何将它们分类到给定的桶中(您可以调用多标签分类或命名实体识别或带有情感分析的信息提取或任何东西)

我尝试了所有与 NLP 词频计数相关的东西(在 R 中)并参考了 StanfordNLP(https://nlp.stanford.edu/software/CRF-NER.shtml)等等。但无法得到具体的解决方案。

谁能指导我如何解决这个问题?谢谢 !!!

0 投票
2 回答
569 浏览

scala - 用于多类分类 Spark 2.x 的 RandomForestClassifier

我正在尝试使用随机森林进行使用 spark 2.1.1 的多类分类

像往常一样定义我的管道后,它在索引阶段失败了。

我有一个包含许多字符串类型列的数据框。我为它们中的每一个创建了一个 StringIndexer。

我通过将 StringIndexers 与 VectorAssembler 链接起来创建一个管道,最后是一个 RandomForestClassifier,然后是一个标签转换器。

我已经检查了我所有的专栏,distinct().count()以确保我没有太多的类别等等......

经过一些调试,我了解到每当我开始对某些列进行索引时,都会出现以下错误......调用时:

然后在转换内部,定义元数据时出现此错误:

错误评估方法:org$apache$spark$ml$feature$StringIndexerModel$$labelToIndex 方法抛出“java.lang.NullPointerException”异常。无法评估 org.apache.spark.sql.types.Metadata.toString()

发生这种情况是因为我在索引的某些列上有 null。

我可以使用以下示例重现该错误。

https://issues.apache.org/jira/browse/SPARK-11569

https://github.com/apache/spark/blob/branch-2.1/mllib/src/main/scala/org/apache/spark/ml/feature/StringIndexer.scala