5

我正在尝试 Vowpal Wabbit,并且正在确定培训和测试所需的文件格式。我一直在关注https://github.com/JohnLangford/vowpal_wabbit/wiki/Tutorial的教程,看到以下是训练数据格式:

0 | price:.23 sqft:.25 age:.05 2006
1 2 'second_house | price:.18 sqft:.15 age:.35 1976
0 1 0.5 'third_house | price:.53 sqft:.32 age:.87 1924

对于测试数据,我没有标签或任何输出,只有特征。我将如何写出来?我试过只包括这样的功能:

price:.23 sqft:.25 age:.05 2006
price:.18 sqft:.15 age:.35 1976
price:.53 sqft:.32 age:.87 1924

但是,这给了我例外,因为它不是正确的格式。我还尝试了以下方法,结果都只给了我 0:

| price:.23 sqft:.25 age:.05 2006
| price:.18 sqft:.15 age:.35 1976
| price:.53 sqft:.32 age:.87 1924

0 0 0 | price:.23 sqft:.25 age:.05 2006
0 0 0 | price:.18 sqft:.15 age:.35 1976
0 0 0 | price:.53 sqft:.32 age:.87 1924

任何我应该瞄准的格式,只知道功能?谢谢您的帮助。

4

1 回答 1

6

条形符号 (|) 也必须采用预测格式:

| price:.23 sqft:.25 age:.05 2006
| price:.18 sqft:.15 age:.35 1976
| price:.53 sqft:.32 age:.87 1924

如果您没有包含正确的标签,当然 vw 无法计算测试损失。要获得预测,请使用vw -d test_set.vw -t -p predictions.txt. 教程中的训练集(仅包含三个示例)太小,无法训练任何合理的模型。

于 2014-11-15T08:36:37.710 回答