3

我们从搜索引擎查询日志数据中提取了特征,特征文件(根据 Vowpal Wabbit 的输入格式)达到 90.5 GB。这种巨大尺寸的原因是我们的特征构建中必要的冗余。Vowpal Wabbit 声称能够在几个小时内处理 TB 的数据。除此之外,大众使用几乎不占用 RAM 的哈希函数。但是,当我们使用 VW 对我们的数据运行逻辑回归时,几分钟之内,它就会耗尽所有 RAM,然后停止。这是我们使用的命令-

vw -d train_output --power_t 1  --cache_file train.cache -f data.model 
--compressed --loss_function logistic --adaptive --invariant 
--l2 0.8e-8 --invert_hash train.model

train_output 是我们要训练 VW 的输入文件,train.model 是训练后得到的预期模型

欢迎任何帮助!

4

1 回答 1

6

我发现这个--invert_hash选项非常昂贵。尝试在没有该选项的情况下运行。您还可以尝试打开--l1正则化选项以减少模型中的系数数量。

你的模型中有多少特征?每行有多少个特征?

于 2014-03-30T15:25:04.183 回答