问题标签 [supervised-learning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
828 浏览

machine-learning - 使用 libsvm 进行一类分类

快速回顾一下我想做的事情,我想确定一篇文章是否由同一作者撰写。因此我使用一类分类。
在我的训练集(18 个样本)中,它看起来像这样(为了简化,我使用 x 作为数据值):

在我的测试集(3 个样本)中,它看起来像这样(为了简化,我使用 y 作为数据值):

对于数据准备(训练和测试集),我将缩放上限和下限设置为 +1/-1

对于训练,我使用 svm_type 是一类 svm,内核类型是 Sigmoid。然而准确率是0%

有人可以告诉我我在这里做错了什么吗?

0 投票
2 回答
20455 浏览

neural-network - 用于音频的卷积神经网络 (CNN)

我一直在关注 DeepLearning.net 上的教程,学习如何实现从图像中提取特征的卷积神经网络。该教程解释得很好,易于理解和遵循。

我想扩展相同的 CNN 以同时从视频(图像 + 音频)中提取多模态特征。

我知道视频输入只不过是在一段时间内(例如 30 FPS)显示的与音频相关的一系列图像(像素强度)。但是,我真的不明白什么是音频,它是如何工作的,或者它是如何被分解以馈送到网络中的。

我已经阅读了几篇关于该主题的论文(多模态特征提取/表示),但没有人解释音频是如何输入到网络的。

此外,我从我的研究中了解到,多模态表示是我们大脑真正工作的方式,因为我们不会故意过滤掉我们的感官来实现理解。这一切都是同时发生的,我们通过(联合表示)不知道它。一个简单的例子是,如果我们听到狮子吼叫,我们会立即在脑海中形成狮子的形象,感到危险,反之亦然。我们的大脑中激活了多种神经模式,以全面了解狮子的外观、声音、感觉、气味等。

上面提到的是我的最终目标,但为了简单起见,我暂时将我的问题分解。

如果有人能阐明如何剖析音频,然后在卷积神经网络中表示,我将不胜感激。我也会感谢您对多模态同步、联合表示以及使用多模态数据训练 CNN 的正确方法的想法。

编辑: 我发现音频可以表示为频谱图。它是音频的常见格式,并表示为具有两个几何维度的图形,其中水平线代表时间,垂直线代表频率。

在此处输入图像描述

是否可以对这些频谱图上的图像使用相同的技术?换句话说,我可以简单地将这些频谱图用作卷积神经网络的输入图像吗?

0 投票
2 回答
62 浏览

algorithm - 分段多语言并行文本

我有多语言文本,其中包含翻译成多种语言的消息。例如:

顺序不准确。我想设计一种有监督/无监督的学习算法来自动进行分割,并提取每个翻译以创建一个并行的数据语料库。

你能建议任何论文/方法吗?我无法获得用于谷歌搜索的正确关键字。

0 投票
2 回答
1331 浏览

machine-learning - 神经网络学习速度快,误报

我最近开始实现一个前馈神经网络,我使用反向传播作为学习方法。我一直在使用http://galaxy.agh.edu.pl/~vlsi/AI/backp_t_en/backprop.html作为指南。

然而,在第一个时代之后,我的错误是 0。在将网络用于我的真正目的之前,我尝试了简单的网络结构:

  • 4 个二进制输入,1、1、0、0。
  • 2 个隐藏层,每层 4 个神经元。
  • 1 个输出神经元,1.0 应该 = 有效输入。

每个训练 epoch 运行测试输入 (1, 1, 0, 0),计算输出误差(sigmoid 导数 * (1.0 - sigmoid)),反向传播误差并最终调整权重。

每个神经元的新权重 = 权重 + learning_rate * 神经元的误差 * 权重的输入。

每个隐藏神经元的误差 =(所有输出神经元的误差之和 * 连接权重)* 神经元的 sigmoid 导数。

问题是我的学习率必须为 0.0001,我才能看到在降低错误方面的时期之间的任何“进展”。在这种情况下,错误开始于 ~30.0.0 左右。任何更大的学习率和错误在第一次通过后都会导致 0,从而导致误报。

此外,当我使用我的真实数据(来自样本的一组 32 个音频特征 - 每个隐藏层 32 个神经元)尝试这个网络时 -我遇到了同样的问题到了任何噪音都会触发误报的地步。可能这可能是输入功能问题,但当我使用高音进行测试时,我可以清楚地看到原始数据与低音不同。

我是神经网络新手,所以我几乎可以肯定问题出在我的网络上。任何帮助将不胜感激。

0 投票
1 回答
79 浏览

machine-learning - Weka SMO 分类器不断返回一个结果

我在我的项目中使用 WEKA。我使用 SVM(SMO) 对结果进行分类。我首先收集了训练集数据并进行了 10 倍交叉验证。然后我用这些训练集构建了一个分类器并让它实时运行,这意味着实时提取特征并将它们传递给分类器。但是,分类器在大多数情况下返回 0(我们有 5 个标签,0 是第一个标签)?它可能会返回其他标签,但非常罕见。

导致分类器不断输出 0 的可能原因是什么?非常感谢。

0 投票
2 回答
6482 浏览

machine-learning - 异常检测与监督学习

我有非常小的数据属于正类和大量来自负类的数据。根据教授。Andrew Ng(异常检测与监督学习),由于数据高度倾斜,我应该使用异常检测而不是监督学习。

如果我错了,请纠正我,但两种技术对我来说都是一样的,即在(监督)异常检测和标准监督学习中,我们用正常和异常样本训练数据并测试未知数据。有什么区别吗?

我应该只对负类进行欠采样还是对正类进行过采样以获得相同大小的两种类型数据?它会影响整体准确性吗?

0 投票
1 回答
154 浏览

decision-tree - 我可以使用决策树来比较属性对的值吗?

我想使用决策树进行二元分类。我想知道我的方法是否是决策树的有效方法。

我的数据集中的每个实例都有成对的属性,并且我已经确定对于某些对,我可以比较这些值来做出决定。例如,一个实例可能具有以下属性:

实例 = {A1,A2,A3,A4,B1,B2,B3,B4}

A1 和 B1 具有不同的值,但指的是相同的特征——这就是我将它们称为一对时的意思。我想做的是在树中有比较一对值的节点:

这是使用决策树的有效方法吗?

这类问题有更好的学习方法吗?

0 投票
2 回答
83 浏览

machine-learning - 如何使用监督机器学习方法处理不同的输入维度?

所以基本上我正在处理一个长度不等的训练和测试数据集(一堆数组),如下所示:

我是机器学习领域的新手,我被困在如何使这些不等长的输入数组变得等​​长,从而可以轻松地利用现有的机器学习算法。

目前我可以考虑使用最大公共序列来查找不同长度的输入数组之间的相似性..

但基本上在我得到 LCS 信息之后,我怎样才能将输入数组转换为等长的数组..?

我走对了吗?谁能给我一些帮助?

0 投票
3 回答
6582 浏览

machine-learning - Why Gaussian radial basis function maps the examples into an infinite-dimensional space?

I've just run through the Wikipedia page about SVMs, and this line caught my eyes: "If the kernel used is a Gaussian radial basis function, the corresponding feature space is a Hilbert space of infinite dimensions." http://en.wikipedia.org/wiki/Support_vector_machine#Nonlinear_classification

In my understanding, if I apply Gaussian kernel in SVM, the resulting feature space will be m-dimensional (where m is the number of training samples), as you choose your landmarks to be your training examples, and you're measuring the "similarity" between a specific example and all the examples with the Gaussian kernel. As a consequence, for a single example you'll have as many similarity values as training examples. These are going to be the new feature vectors which are going to m-dimensional vectors, and not infinite dimensionals.

Could somebody explain to me what do I miss?

Thanks, Daniel

0 投票
1 回答
725 浏览

algorithm - 在 Weka 中堆叠

我在 Weka 中使用元分类器“堆叠”来组合两种算法,如下图所示。

我想知道我是否可以在分类器(第一个单元格)和元分类器(第三个单元格)中使用相同的算法。如果我要组合的两种算法是 J48 和多感知器,那么对于我的堆叠方法来说,理想的元分类器应该是什么?

在 Weka 中堆叠