1

我有一个不寻常的回归问题,我正试图适应 vowpal wabbit。我正在尝试学习一组回归量{r_m(x)} ,它们在n=1 到 n=N的数据集{(x_n, h_n[m])}上进行训练,其中m索引M维。这基本上意味着有M个单独的回归问题。

我想知道是否可以通过将每个问题归入其自己的命名空间来将所有M个问题合并为 1 个问题。例如,在 .vw 培训文件中,我将拥有以下内容:

h_1[m=0] |firstnamespace x_1_features
h_2[m=0] |firstnamespace x_2_features
...      |...            ...
h_N[m=0] |firstnamespace x_N_features
----------------------------------------------------------------
h_1[m=1] |secondnamespace x_1_features
h_2[m=1] |secondnamespace x_2_features
...      |...             ...
h_N[m=1] |secondnamespace x_N_features
----------------------------------------------------------------
h_1[m=M] |lastnamespace x_1_features
h_2[m=M] |lastnamespace x_2_features
...      |...           ...
h_N[m=M] |lastnamespace x_N_features

然后我就可以表演了

vw -d Train.vw -f Train.model -c --loss_function squared
    --invert_hash model_readable.txt

并获得每个命名空间的回归量权重。

我知道这种策略类似于将多标签分类问题转换/归约为多个二元分类问题:this link。我想知道是否可以将相同的方法应用于回归问题而没有维度之间的任何串扰,即 vowpal wabbit 独立处理每个命名空间。

如果需要注意的话,我有M = 400,N = 4e6,并且数据维度的数量等于整个文档集中的唯一单词标记的数量......

4

0 回答 0