问题标签 [multiclass-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 如何在 Spark 2.1.0 中创建拟合的 PipelineModelS 数组?
我正在尝试将PipelineModel
每个经过训练的决策树模型中的一个存储到一个Array
. 虽然我创建了一个数组,PipelineModelS
但我有以下不匹配错误:
任何人都可以帮助我吗?鸢尾花的数据集(libsvm格式)可以在这里找到https://1drv.ms/u/s!Antm9EMPXrQmgP9zQhgdAdxUBSAtSA。这是示例代码:
python - AttributeError: 'Sequential' 合并模型时没有属性 'get_shape'
我正在尝试创建两个顺序模型(每个模型都在不同的数据集上训练 - 不同的图像)。然后我想取它们的输出的平均值,并添加一个 softmax 层,以给我一个基于两个序列模型的单一分类输出。我的代码在下面,但我得到一个属性错误,说“顺序”对象没有属性“get_shape”。
完整的错误代码是:
关于如何解决它的任何想法?
machine-learning - 结直肠癌数据中阶段的多类分类
我正在使用基因表达数据进行结直肠癌分期多分类项目。我的数据集包含 11 个生物标志物。分类结果约为 40%。我尝试过使用 KNN、SVM、神经网络进行分类的不同模型......,并且我尝试过来自集成机器学习的算法。有谁知道我可以用数据集做什么来改善结果?
python - 检查目标时出错:预期 dense_20 的形状为 (None, 3) 但得到的数组的形状为 (1200, 1)
使用使用 Keras 的 VGG 16,我正在尝试运行三类分类问题,代码如下:
运行代码,我收到错误:
检查目标时出错:预期 dense_20 的形状为 (None, 3) 但得到的数组的形状为 (1200, 1)
请让我知道我必须对代码进行哪些更改才能使其正常运行。我正在使用带有 Python 3.5.2 的 Anaconda,在 Windows 机器上运行。
machine-learning - 使用 Google 搜索术语列表以构建特定类别的词袋
我很难理解构建词袋的过程。这将是一个多类分类监督机器学习问题,其中一个网页或一段文本被分配给多个预定义类别中的一个类别。现在我在为特定类别(例如“数学”)构建词袋时所熟悉的方法是收集大量与数学相关的网页。从那里,我将执行一些数据处理(例如删除停用词和执行 TF-IDF)以获得类别“数学”的词袋。
问题:我正在考虑的另一种方法是在谷歌中搜索“与数学相关的术语列表”之类的内容来构建我的词袋。请问这种方法可以吗?
另一个问题:在这个问题的上下文中,词袋和语料库是否意味着同样的事情?
先感谢您!
machine-learning - 为二元分类训练多类分类器
如果一个数据集包含多个类别,例如 0-class、1-class 和 2-class。现在的目标是将新样本划分为 0-class 或non-0-class。
一罐
- 将 1,2-class 组合成一个统一的 non-0-class 并训练一个二元分类器,
- 或者训练一个多类分类器来进行二分类。
这两种方法的性能如何?
我认为更多的类别会带来更准确的判别面,但是 1 类和 2 类的权重都低于非 0 类,导致判断为非 0 类的样本更少。
machine-learning - 当一个训练示例中存在多个类时,如何训练 VGG 网络?
我最近切换到 TFlearn 来计算我的网络准确性,以便对图像进行分类并创建最先进的结果。我正在使用这个来自 TFlearn 的确切文件,数据集除外。我想重现 VOC2007 数据集的准确性,下载了所有图像和 groundtruth,并编写了一个函数来创建一个包含所有图像的 4D 张量和一个包含所有类索引的 2D 张量。它们的形状分别为 [?, 224, 224, 3] 和 [?, 20]。现在我注意到,类索引不是一个热标签,而是一个图像中可以存在多个类。由于 TFlearn 允许存在多个类,因此网络性能非常差(准确度约为 30%,是的,我更改了输出类的数量)。我想知道,如何解决这个问题。我应该每张图片只允许一个类吗?但是,如果图像中有两个类别,并且我根据第二个类别对其进行正确分类,这将是一个正确的检测,我会将其误分类为错误。我有什么选择吗?我没有看到“one-hot”选项或类似的东西(比如在 oxflowers 数据集中)。
谢谢你的帮助!
machine-learning - 机器学习多分类:为什么使用“one-hot”编码而不是数字
我目前正在研究 tensorflow 的分类问题,而且我是机器学习领域的新手,但我没有得到任何东西。
我已经成功地尝试训练输出这样的y
张量的模型:
但我无法理解它背后的校长......
为什么不只训练相同的模型来输出类,例如y = 3
或y = 4
这似乎更加灵活,因为我可以想象有 200 万个可能的类的多分类问题,并且输出 0-2,000,000 之间的数字比为每个结果输出 2,000,000 个项目的张量要高效得多。
我错过了什么?
machine-learning - 生成对抗网络需要类别标签吗?
我试图了解如何训练 GAN。我相信了解对抗性训练过程。我似乎找不到相关信息:GAN 在训练过程中使用类标签吗?我目前的理解说不 - 因为鉴别器只是试图区分真实或虚假图像,而生成器试图创建真实图像(但不是任何特定类别的图像。)
如果是这样,那么研究人员如何提议将鉴别器网络用于分类任务?该网络只能在真实或虚假图像之间执行两种分类。生成器网络也很难使用,因为我们不知道输入向量“Z”的什么设置会产生所需的生成图像。
design-patterns - 模式识别/数据分类
我正在开发一个项目,我必须在其中分析大量数据。它是一种实时监控系统,应用于电气设备。
情况是这样的:在一个想象的场景中,我将有一个向量,例如:
[1.4, 5.1, 23.3, 4.5, 12.5, 6.1, .....](N值的大小)
我必须建立 3 种类型的“分类”,它们可能是:
1)如果向量中有几个“1.5”,则做事件A。
2)如果向量中有几个“5”,则做事件B。
3)如果向量中有几个“15”,则做事件C。
实际上必须做的是分析接收到的信息并根据它执行不同的事件。
我应该使用哪种技术模式识别、数据分类等?