我一遍又一遍地观看了Andrew Ng 的视频,但我仍然不明白如何将梯度下降应用于我的问题。
他几乎只处理高级概念解释领域,但我需要的是底层战术见解。
我的输入是以下形式的特征向量:
例子:
Document 1 = ["I", "am", "awesome"]
Document 2 = ["I", "am", "great", "great"]
字典是:
["I", "am", "awesome", "great"]
所以作为向量的文档看起来像:
Document 1 = [1, 1, 1, 0]
Document 2 = [1, 1, 0, 2]
根据我所见,梯度下降算法如下所示:
我目前的理解是α是学习率,x (i)是一个特征,在上面的例子中Document 2
,x (3) =2。
y (i)是标签,在我的情况下,我试图预测Document
与特定特征向量相关的,例如 y (0)将与 相关联Document 1
,& y (1)将表示Document 2
。
可能会有很多文档,比如说 10 个,所以在这种情况下,我可以有 5 个与 y (0)相关联的文档和 5 个与 y (1)m = 10
相关联的文档。
我不明白的第一件事是, Θ 0和 Θ 1的作用是什么?
我认为它们是权重值,与感知器算法一样,我将它们应用于特征的值,以努力哄骗该特征,不管其固有值如何,输出与其关联的标签的值. 那是对的吗?所以我一直在将 Θ 值与感知器的权重值相等,这准确吗?
此外,我不明白我们正在采用什么梯度。我真的不想再听到关于在山上行走之类的高级解释,实际上,对于我刚刚在上面详述的情况,我们采用什么梯度?两个后续迭代中的权重?一个特征的价值和它的真实标签?
感谢您的考虑,任何见解将不胜感激。