0

周二,我将向我的 Web 开发人员同学做一个关于神经网络的简短介绍。我希望将这段代码(在第 1 部分,一个微型玩具神经网络:2 层网络)翻译成 JavaScript,以便我的观众更容易识别。

import numpy as np

# sigmoid function
def nonlin(x,deriv=False):
    if(deriv==True):
        return x*(1-x)
    return 1/(1+np.exp(-x))

# input dataset
X = np.array([  [0,0,1],
                [0,1,1],
                [1,0,1],
                [1,1,1] ])

# output dataset            
y = np.array([[0,0,1,1]]).T

# seed random numbers to make calculation
# deterministic (just a good practice)
np.random.seed(1)

# initialize weights randomly with mean 0
syn0 = 2*np.random.random((3,1)) - 1

for iter in xrange(10000):

    # forward propagation
    l0 = X
    l1 = nonlin(np.dot(l0,syn0))

    # how much did we miss?
    l1_error = y - l1

    # multiply how much we missed by the 
    # slope of the sigmoid at the values in l1
    l1_delta = l1_error * nonlin(l1,True)

    # update weights
    syn0 += np.dot(l0.T,l1_delta)

print "Output After Training:"
print l1

这是我现在的 JavaScript 代码。我只是去 ES6ified 让它在我的 IDE 中运行:

const _ = require('lodash')
const m = require('mathjs')

const sigmoid = function(z) { return 1.0 / (1.0 + Math.exp(-z)) }

const sigmoid_prime = function(z) { return sigmoid(z) * (1 - sigmoid(z)) }

var X = m.matrix([ [0,0,1],[0,1,1],[1,0,1],[1,1,1] ])
var y = m.transpose(m.matrix(([[0,1,1,0]])))

var syn0 = m.random([3, 1], -1, 1)

var l0, l1, l1_delta, l1_error

_.range(10000).forEach(function() {

    l0 = X;
    l1 = m.map(m.multiply(l0, syn0), sigmoid)
    l1_error = m.subtract(y, l1)
    l1_delta = m.dotMultiply(l1_error, m.map(l1, sigmoid_prime))
    syn0 = m.multiply(m.transpose(l0),l1_delta)
})

console.log("Output After Training:")
console.log(l1)

如您所见,我正在使用 mathjs 作为 numpy 的替代品。我试图仔细查看 mathjs 和 numpy 的文档,不要混淆我的矩阵乘法和我的元素乘法,但是有些东西很糟糕,每个输出我得到 0.5。我已经在调试器中逐步完成了我的程序,并在 python 临时文件中并排比较了值,从 JavaScript 程序生成的 syn0 的值开始 python,看起来它就在这里,反向传播线,它们略有不同(并且可能在迭代中分歧更多)l1_delta = m.dotMultiply(l1_error, m.map(l1, sigmoid_prime)):。但我不明白为什么。

编辑:我应该在发布之前更新我的代码,以反映在上一个版本中我将 y 定义更改为var y = m.matrix([ [0], [0], [1], [1]])并稍微修改了问题,因为输出从全 0.5 切换到稍微偏离 0.5。

第二次编辑:布伦特在评论中正确地指出我有一个错误,因为模仿我从我的 sigmoid 素数函数移植的代码只需要 z*(1-z)。我错过了那条皱纹。可悲的是,这并没有什么不同。控制台在最后一次迭代中记录字符串化函数和 syn0 的值:

sigmoid prime is function (z) {return sigmoid(z) * (1 - sigmoid(z))}
syn0 is Matrix {
  _data: 
   [ [ 0.21089543115482337 ],
     [ -0.010100491415226356 ],
     [ -0.021376195229226028 ] ],
  _size: [ 3, 1 ],
  _datatype: undefined }

现在改变功能:

sigmoid prime is function (z) { return z * (1 - (z)) }
syn0 is Matrix {
  _data: 
   [ [ 0.2235282818415481 ],
     [ -0.010714305064562765 ],
     [ -0.022890185954402634 ] ],
  _size: [ 3, 1 ],
  _datatype: undefined }
4

1 回答 1

0

看起来你很近,这是一个不错的港口。

认为这是您翻译该nonlin功能的一个小错误。在deriv参数为真的情况下,方程为x * (1 - x)。在您使用的版本中sigmoid(x) * (1 - sigmoid(x))。我认为您不需要sigmoid从内部调用sigmoid_prime

我希望这会有所帮助!

于 2017-06-19T03:34:15.453 回答