r - R中逻辑回归公式的实现

Question

我正在尝试使用 R 中的随机梯度下降来构建我自己的逻辑回归函数，但是我现在所拥有的使权重无限制地增长，因此永远不会停止：

# Logistic regression
# Takes training example vector, output vector, learn rate scalar, and convergence delta limit scalar
my_logr <- function(training_examples,training_outputs,learn_rate,conv_lim) {
  # Initialize gradient vector
  gradient <- as.vector(rep(0,NCOL(training_examples)))
  # Difference between weights
  del_weights <- as.matrix(1)
  # Weights
  weights <- as.matrix(runif(NCOL(training_examples)))
  weights_old <- as.matrix(rep(0,NCOL(training_examples)))

  # Compute gradient
  while(norm(del_weights) > conv_lim) {

    for (k in 1:NROW(training_examples)) {
      gradient <- gradient + 1/NROW(training_examples)*
        ((t(training_outputs[k]*training_examples[k,]
            /(1+exp(training_outputs[k]*t(weights)%*%as.numeric(training_examples[k,]))))))
    }

    # Update weights
    weights <- weights_old - learn_rate*gradient
    del_weights <- as.matrix(weights_old - weights)
    weights_old <- weights

    print(weights)
  }
    return(weights)
}

该功能可以使用以下代码进行测试：

data(iris) # Iris data already present in R    
# Dataset for part a (first 50 vs. last 100)
iris_a <- iris
iris_a$Species <- as.integer(iris_a$Species)
# Convert list to binary class
for (i in 1:NROW(iris_a$Species)) {if (iris_a$Species[i] != "1") {iris_a$Species[i] <- -1}}    
random_sample <- sample(1:NROW(iris),50)

weights_a <- my_logr(iris_a[random_sample,1:4],iris_a$Species[random_sample],1,.1)

我用Abu-Mostafa's仔细检查了我的算法，如下所示：

初始化权重向量
对于每个时间步计算梯度：
gradient <- -1/N * sum_{1 to N} (training_answer_n * training_Vector_n / (1 + exp(training_answer_n * dot(weight,training_vector_n))))
weight_new <- weight - learn_rate*gradient
重复直到重量增量足够小

我在这里错过了什么吗？

score 3 · Accepted Answer

从数学的角度来看，权重向量上的不受约束的大小不会产生唯一的解决方案。当我将这两行添加到分类器函数时，它分两步收敛：

# Normalize
weights <- weights/norm(weights)

...

# Update weights
weights <- weights_old - learn_rate*gradient
weights <- weights / norm(weights)

我无法让@SimonO101 工作，而且我没有将这段代码用于实际工作（有类似的内置函数glm），所以我理解的循环就足够了。整个函数如下：

# Logistic regression
# Takes training example vector, output vector, learn rate scalar, and convergence delta limit scalar
my_logr <- function(training_examples,training_outputs,learn_rate,conv_lim) {
  # Initialize gradient vector
  gradient <- as.vector(rep(0,NCOL(training_examples)))
  # Difference between weights
  del_weights <- as.matrix(1)
  # Weights
  weights <- as.matrix(runif(NCOL(training_examples)))
  weights_old <- as.matrix(rep(0,NCOL(training_examples)))

  # Normalize
  weights <- weights/norm(weights)

  # Compute gradient
  while(norm(del_weights) > conv_lim) {

    for (k in 1:NCOL(training_examples)) {
      gradient <- gradient - 1/NROW(training_examples)*
        ((t(training_outputs[k]*training_examples[k,]
            /(1+exp(training_outputs[k]*t(weights)%*%as.numeric(training_examples[k,]))))))
    }
#     gradient <- -1/NROW(training_examples) * sum(training_outputs * training_examples / (1 + exp(training_outputs * weights%*%training_outputs) ) )

    # Update weights
    weights <- weights_old - learn_rate*gradient
    weights <- weights / norm(weights)
    del_weights <- as.matrix(weights_old - weights)
    weights_old <- weights

    print(weights)
  }
    return(weights)
}

score 1 · Accepted Answer

有几个问题。首先，您可以更好地利用 R 的矢量化方法。其次，我不是随机梯度下降方面的专家，但是您在问题下方给出的算法与您在函数中计算梯度的方式不对应。仔细检查这段代码，但它似乎收敛了，我认为它遵循 Abu-Mostfafa 的。我收集到你想计算这个梯度；

gradient <- -1/N * sum(training_outputs * training_examples / (1 + exp(training_outputs * dot( weights ,training_outputs) ) ) )

所以你算法的这一部分应该读...

while(norm(del_weights) > conv_lim) {  
gradient <- -1 / NROW(iris_a) * sum( training_outputs * training_examples / ( 1 + exp( training_outputs * as.matrix(training_examples) %*% weights ) ) )

# Update weights
weights <- weights_old - learn_rate*gradient
del_weights <- as.matrix(weights_old - weights)
weights_old <- weights
print(weights)

}

您可以使用以下方法更轻松地从 Species 变量创建二元分类：

iris_a$Species <- as.numeric( iris_a$Species )
iris_a$Species[ iris_a$Species != 1 ] <- -1

我无法告诉您返回的结果是否合理，但该代码应遵循第 2 步。仔细检查每个步骤，并记住 R 是矢量化的，因此您可以在没有循环的情况下对向量进行元素明智的操作。例如：

x <- 1:5
y <- 1:5
x*y
#[1]  1  4  9 16 25

r - R中逻辑回归公式的实现

2 回答 2

Related

Reference