5

我对 VW 的简单运行的输出有几个问题。我已经阅读了互联网和维基网站,但仍然不确定一些基本的事情。

我在波士顿住房数据上运行了以下内容:

vw -d housing.vm --progress 1

其中 Housing.vm 文件设置为(部分):

在此处输入图像描述

输出是(部分):

在此处输入图像描述

问题一:

1)将平均损失列视为以下步骤是否正确:

a) 预测为零,因此第一个平均损失是第一个示例的平方误差(预测为零)

b) 在示例 1 上建立模型并预测示例 2。平均现在的 2 平方损失

c) 在示例 1-2 上建立模型并预测示例 3。平均现在的 3 平方损失

d) ...

这样做直到你到达数据的末尾(假设一次通过)

2)当前的特征列是什么?它似乎是非零特征的数量+截距。示例中显示的内容表明,如果特征为零,则不计算在内 - 这是真的吗?例如,第二条记录的“ZN”值为零。大众真的认为这个数字特征是缺失的吗?

4

1 回答 1

5

你的说法基本正确。默认情况下,VW 进行在线学习,因此在步骤 c 中,它采用当前模型(权重)并使用当前示例对其进行更新(而不是再次从所有先前的示例中学习)。

如您所料,当前特征列是当前示例的(非零)特征数。拦截功能会自动包含在内,除非您指定--noconstant.

缺失特征和零值特征之间没有区别。两者都意味着您不会更新相应的权重。

于 2014-09-15T07:35:51.493 回答