问题标签 [feed-forward]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
522 浏览

deep-learning - 注意机制可以应用于前馈神经网络等结构吗?

最近学习decoder-encoder网络和attention机制,发现很多论文和博客都在RNN网络上实现attention机制。

如果其他网络可以包含注意力机制,我很感兴趣。例如,编码器是前馈神经网络,解码器是 RNN。没有时间序列的前馈神经网络可以使用注意力机制吗?如果可以的话,请给我一些建议。提前谢谢你!

0 投票
1 回答
156 浏览

c++ - 为什么我的神经网络在某个成本附近停滞不前?

我正在制作一个神经网络,它应该能够使用可在此处下载的 Mnist 数据库识别手写数字。该网络可以完美地处理 1 到 5 个示例,但在 10 个示例之后它开始变得有点不确定。使用 5000 个示例的标准,该程序将停滞在大约 0.42 成本(它从大约 1.2 成本开始)。最后一层中 10 个神经元的所有输出也将趋向于 0.1,因此网络显然永远不会非常确定它的猜测(通常猜测的输出将在 0.1 到 0.2 左右,但有一些例外)

训练 5000 次迭代后最后一层的猜测和输出示例:

我已经尝试调整 h 层的数量和大小以及学习率,但结果总是相同的(不断跳跃大约 0.42 的成本)。当然,我推测我的反向传播或数学只是没有检查出来,但是使用基于反向传播指南的测试网络进行测试,链接这里我的权重根据文章完美地调整到小数点。所以我不知道该怎么做才能防止我的网络停滞不前并让它在这一点上学习。有谁知道为什么它会像这样停滞不前?

神经网络的 cpp 文件中的相关代码:

链接到完整代码,包括 GitHub 上 cpp-file、h-file 和 main-file 中的一些 exta 函数以获取更多上下文:完整代码

0 投票
0 回答
72 浏览

c++ - 用 C++ 实现的神经网络的可疑预测

我在 C++ 中创建了一个神经网络,用于近似加法函数y = x + y。我使用了一个带有 5 个神经元的隐藏层。x 和 y 的值在 0 和 10 的范围内。所以在训练之前,我通过最大值 (2x10) 对训练数据(输入和输出数据)进行了归一化。

在我的模型做出预测后(位于 0 和 1 之间),我通过将预测乘以 2x20 来反规范化预测。但是,我的结果仍然显示出一个转变。

即,如果结果 (y) 应该被预测为 8,我的网络给出 -12。同样,我得到的不是 1,而是 -19。为了纠正这种变化,我在我的预测值上加了 20。这就是我得到的: 忽略标题,*f(x)= sin(x)*

忽略标题,f(x)= sin(x),其中,蓝色显示实际结果,红色显示预测值(我手动添加20后)

我的问题是:我的网络预测良好吗?“在结果中手动添加 20”是否正常?

(PS:链接到参考代码,并 链接到我有问题的代码)

0 投票
1 回答
148 浏览

java - 为什么有时我的神经网络中会出现 NaN?

我最近使用 youtube 上的一系列视频编写了一个神经网络,该频道是编码火车。它是用 js 写的,我是用 java 写的。它有时工作正常,但有时我得到 NaN 作为输出,我可以弄清楚为什么?

任何人都可以帮忙吗?一些矩阵数学和神经网络类有一个矩阵类,它本身带有一个测试问题。如果 0 大于 1,则第一个输出为 1,否则,第二个输出为 1。

编辑:我发现问题出在哪里,但我仍然无法弄清楚为什么会这样?!in 发生在我在 Matrix 类中的静态点积方法中。有时一个或两个矩阵数据都是 NaN!

编辑 2:我检查过,输入在构造函数中是有效的,但在前馈方法中它们有时是 NaN !!!可能是因为我使用的是一台 10 年前的笔记本电脑吗?因为代码似乎没有任何问题。

已解决:我找到了问题!在前馈中,我没有为输出矩阵映射 sigmoid -_-

0 投票
1 回答
54 浏览

tensorflow - Tensorflow:向 LSTM 添加前馈

如何使用 Tensorflow 在标准 LSTM 网络之前添加额外的前馈层?

0 投票
1 回答
287 浏览

machine-learning - 使用前馈神经网络而不是 LSTM?

LSTM 问题可以表示为 FFNN 问题吗?

LSTM 神经网络只是简单地回顾过去。但我也可以取一些(或许多)过去的值并将它们用作 FFNN 的输入特征。

这样一来,FFNN 能否取代 LSTM Networks?如果我可以获取过去的值并将它们用作输入特征,为什么我应该更喜欢 LSTM 而不是 FFNN?

0 投票
0 回答
48 浏览

r - R中的自定义Keras层

设置

假设我有一个用 Keras (R) 编写的神经网络架构,其最后一层输出 n 个输出,所以像这样

对于一些矩阵 A 和 B,以及一些激活函数 σ(例如 ReLu)。

这是我到目前为止所做的一些代码(没有新层)。


问题:

假设我已经定义了从 R^n 到 R^n 的函数 f,例如

如何修改我的代码以优化网络

其中 C 是从 R^n 到 R 的矩阵?

换句话说,我想制作自定义层,然后训练生成的网络......

0 投票
1 回答
40 浏览

machine-learning - 如何在前馈神经网络中鼓励冒险?

我正在第一次真正深入研究神经网络,我正在尝试构建经典的“数字识别网络”,而无需任何外部数据库。经过一些初步测试后,我遇到了我的网络保持所有权重非常低的问题,因此输出几乎为零。我明白为什么会发生这种情况(每次程序在 10 个输出中有 9 个正确!)但显然这是我需要阻止发生的事情。

有人对我如何解决这个问题有提示吗?我正在为前馈神经网络使用 sigmoid 激活函数和交叉熵成本函数,我想知道是否有更好的选择可以让程序更显着地考虑正确数字中的错误。

0 投票
1 回答
77 浏览

machine-learning - 如何在前馈神经网络中使用三通道图像?

由于前馈神经网络(不是 CNN)只有一层数据,即它只能处理灰度图像。我们如何让它处理彩色(RGB)三通道图像

0 投票
0 回答
59 浏览

neural-network - 验证损失低于前馈神经网络、DL4J 中的训练

我的问题是我正在训练我的前馈神经网络来预测从一个站点训练到另一个站点需要多长时间。它有两个隐藏层(128 和 64)并使用 TANH。首先,对我来说没有意义的是为什么我的模型在验证数据集时预测得更好。在某一时刻,损失开始波动。

在此处输入图像描述

我检查了我的数据,它们是不同的,没有重复。也许是因为数据非常相似,例如相同的路线,相同的火车类型,这就是这种行为的原因?

我正在使用 DL4J。验证数据集是训练集的 10%。我的数据集包含超过 130 000 行(对于这个特定的例子)。编辑:这是我正在绘制的值。

这是我的神经网络配置: