5

我正在创建一个带有反向传播的 2 层神经网络。NN 应该从 20001x17 向量中获取其数据,该向量在每一行中包含以下信息:

- 前 16 个单元格包含范围从 0 到 15 的整数,这些整数充当变量,帮助我们确定在看到这些变量时要表达的 26 个字母中的哪一个。例如,一系列 16 个值表示字母 A:[2 8 4 5 2 7 5 3 1 6 0 8 2 7 2 7]。

- 第 17 个单元格包含一个从 1 到 26 的数字,代表我们想要的字母表中的字母。1代表A,2代表B等等。

NN 的输出层由 26 个输出组成。每次向 NN 输入如上所述的输入时,它应该输出一个 1x26 向量,其中除了与输入值要表示的字母相对应的一个单元格之外,其他所有单元格都包含零。例如,输出 [1 0 0 ... 0] 将是字母 A,而 [0 0 0 ... 1] 将是字母 Z。

在我展示代码之前,一些重要的事情:我需要使用 traingdm 函数,并且隐藏层数(目前)固定为 21。

为了创建上述概念,我编写了以下 matlab 代码:

%%%%%%%%
%Start of code%
%%%%%%%%

%
%Initialize the input and target vectors
%
p = zeros(16,20001);
t = zeros(26,20001);

%
%Fill the input and training vectors from the dataset provided
%
for i=2:20001
    for k=1:16
        p(k,i-1) = data(i,k);
    end
    t(data(i,17),i-1) = 1;
end

net = newff(minmax(p),[21 26],{'logsig' 'logsig'},'traingdm');

y1 = sim(net,p);

net.trainParam.epochs = 200;
net.trainParam.show = 1;
net.trainParam.goal = 0.1;
net.trainParam.lr = 0.8;
net.trainParam.mc = 0.2;
net.divideFcn = 'dividerand';
net.divideParam.trainRatio = 0.7;
net.divideParam.testRatio = 0.2;
net.divideParam.valRatio = 0.1;

%[pn,ps] = mapminmax(p);
%[tn,ts] = mapminmax(t);

net = init(net);
[net,tr] = train(net,p,t);

y2 = sim(net,pn);

%%%%%%%%
%End of code%
%%%%%%%%

现在我的问题是:我希望我的输出如所描述的那样,即 y2 向量的每一列例如应该是一个字母的表示。我的代码没有这样做。相反,它产生的结果在 0 和 1 之间变化很大,值从 0.1 到 0.9。

我的问题是:我需要做一些我不需要做的转换吗?意思是,我是否必须将我的输入和/或输出数据转换为我可以实际查看我的 NN 是否正确学习的形式?

任何输入将不胜感激。

4

4 回答 4

2

这个是正常的。您的输出层正在使用对数 sigmoid 传递函数,它总是会给您一些介于 0 和 1 之间的中间输出。

您通常会寻找具有最大值的输出 - 换句话说,最可能的字符。

这意味着,对于 中的每一列y2,您都在寻找包含该行中最大值的行的索引。您可以按如下方式计算:

[dummy, I]=max(y2);

I然后是一个向量,其中包含每行中最大值的索引。

于 2009-08-18T16:34:11.057 回答
1

您可以将y2视为 26 个字母字符之一的每个输入的输出概率分布,例如,如果y2的一列表示:

.2
.5
.15
.15

那么这个字符是 B 的概率为 50%(如果我们假设只有 4 个可能的输出)。



==备注==

NN 的输出层由 26 个输出组成。每次向 NN 输入如上所述的输入时,它都应该输出一个 1x26 向量,其中除了与输入值要表示的字母相对应的一个单元格之外,其他所有单元格都包含零。例如,输出 [1 0 0 ... 0] 将是字母 A,而 [0 0 0 ... 1] 将是字母 Z。

最好避免使用目标值 0,1 来编码网络的输出。
避免使用 0 和 1 的目标值的原因是,在给定有限权重的情况下,'logsig' sigmoid 传递函数无法产生这些输出值。如果您尝试训练网络以恰好适合 0 和 1 的目标值,梯度下降将迫使权重无限制地增长。
因此,不要使用 0 和 1 值,而是尝试使用 0.04 和 0.9 的值,这样 [0.9,0.04,...,0.04] 是字母A的目标输出向量。


参考:
Thomas M. Mitchell,机器学习,McGraw-Hill 高等教育,1997,p114-115

于 2009-08-19T04:21:14.110 回答
1
  1. hardlin fcn在输出层中 使用。
    1. 使用trainlmtrainrp来训练网络。
    2. 要了解您的网络,请使用 for 循环和比较输出和目标的条件。当它是最好的使用时,break 退出学习循环。
    3. 使用另一种方式代替mapminmax预处理数据集。
于 2011-01-01T06:59:38.037 回答
0

我不知道这是否构成实际答案:但这里有一些评论。

  • 我不明白你的编码方案。'A' 如何表示为那组数字?看起来您陷入了一个相当常见的陷阱,即使用任意数字对分类值进行编码。不要这样做:例如,如果“a”是 1,“b”是 2,“c”是 3,那么您的编码已经暗示“a”更像“b”而不是“c”(因为网络具有实值输入,序数属性很重要)。正确执行此操作的方法是将每个字母表示为 26 个二进制值输入,其中只有一个处于活动状态,代表字母。
  • 您的输出是正确的,输出层的激活不会是 0 或 1,而是实数。您可以将最大值作为您的活动函数,但这是有问题的,因为它不可微,因此您不能使用反向支持。您应该做的是将输出与softmax 函数耦合,使它们的总和为 1。然后,如果您愿意,您可以将输出视为给定输入的条件概率。虽然网络不是显式概率的,但具有正确的活动和激活函数在结构上将与对数线性模型相同(可能具有对应于隐藏层的潜在变量),并且人们一直都在这样做。

有关神经网络的精彩介绍,请参阅David Mackay 的教科书,这将阐明概率连接。看看Geoff Hinton 小组的这篇论文,该论文描述了在给定上下文的情况下预测下一个字符的任务,以了解正确表示和激活/活动函数的详细信息(尽管要注意他们的方法并不简单,并且使用具有不同的循环网络训练方法)。

于 2013-03-19T10:02:44.857 回答