问题标签 [vowpalwabbit]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2005 浏览

command-line-arguments - Vowpal Wabbit 中的普通最小二乘回归

有没有人设法在 Vowpal Wabbit 中运行普通的最小二乘回归?我正在尝试确认它将返回与确切解决方案相同的答案,即选择一个以最小化||y - X a||_2 + ||Ra||_2(其中r为正规化)时,我想获得分析答案 a = (X^T X + R^T R)^(-1) X^T y。在 numpy python 中进行这种类型的回归大约需要 5 行。

VW 的文档表明它可以做到这一点(大概是“平方”损失函数),但到目前为止,我还无法让它接近匹配 python 结果。因为平方是默认的损失函数,我只是调用:

其中 input.txt 有类似的行

在大众电话中我需要一些其他参数吗?我无法理解(相当少的)文档。

0 投票
1 回答
1852 浏览

vowpalwabbit - Vowpal Wabbit 中的多个标签

有没有办法为 Vowpal Wabbit 数据格式中的示例指定多个标签?

我试过逗号,它没有抱怨,但我不确定它是否符合我的预期......

所以例如:

第一行是 2 类和 3 类的示例。

我确实在vowpal 邮件列表上看到了一些讨论,但我不确定从那以后是否发生了任何事情。

汤姆

0 投票
1 回答
189 浏览

linux - cygwin构建后如何运行vowpal wabbit?

我使用 cygwin 在 win xp sp3 上构建 vowpal_wabbit-7.3。

./配置

制作

它使用 vw.exe 创建了文件夹 vowpalwabbit,但是当我尝试运行它时,出现了找不到 cygwin1.dll 的错误,那么在 cygwin 中构建后如何正确使用 vowpalwabbit?

0 投票
1 回答
906 浏览

machine-learning - vowpal wabbit 的功能

我需要从所有命名空间的子集中选择特征组合(二次和三次)。我想避免单一的功能。例子:

我想选择-q m与命名空间'm'组合的所有功能(根据我使用选项的大众命令行)。重要的是,我想避免所有单一功能,如t_20, m_18,o_15等。

使用--ignoreparams 也会删除我不想要的组合。

在源代码中,似乎忽略名称空间在组合之前很早就被删除了。如果需要,我愿意更改 VW 的源代码。

0 投票
3 回答
8050 浏览

machine-learning - 处理多标签分类中的类不平衡

我已经看到了一些关于多类设置中类不平衡的问题。但是,我有一个多标签问题,那么在这种情况下您将如何处理呢?

我有一组大约 300k 的文本示例。正如标题中提到的,每个示例至少有一个标签,并且只有 100 个可能的唯一标签。我通过利用命名空间将这个问题简化为 Vowpal Wabbit 的二进制分类,例如

从:

至:

我正在使用大众提供的默认选项(我认为是在线 SGD,具有平方损失函数)。我使用平方损失,因为它非常类似于汉明损失。

训练后,在同一训练集上进行测试时,我注意到所有示例都使用“0”标签进行预测......我猜这是最小化损失的一种方法。在这一点上,我不知道该怎么办。我正在考虑使用成本敏感的一对多分类来尝试平衡类,但是将多标签减少到多类是不可行的,因为存在 2^100 个标签组合。我想知道是否还有其他人有任何建议。

编辑:我终于有机会测试类不平衡,特别是对于vw. vw对不平衡的处理非常糟糕,至少对于高维、稀疏的文本特征来说是这样。我尝试了从 1:1 到 1:25 的比例,但在 1:2 的比例下性能会突然下降。

0 投票
0 回答
562 浏览

machine-learning - 使用 Vowpal Wabbit 进行多维回归

我有一个不寻常的回归问题,我正试图适应 vowpal wabbit。我正在尝试学习一组回归量{r_m(x)} ,它们在n=1 到 n=N的数据集{(x_n, h_n[m])}上进行训练,其中m索引M维。这基本上意味着有M个单独的回归问题。

我想知道是否可以通过将每个问题归入其自己的命名空间来将所有M个问题合并为 1 个问题。例如,在 .vw 培训文件中,我将拥有以下内容:

然后我就可以表演了

并获得每个命名空间的回归量权重。

我知道这种策略类似于将多标签分类问题转换/归约为多个二元分类问题:this link。我想知道是否可以将相同的方法应用于回归问题而没有维度之间的任何串扰,即 vowpal wabbit 独立处理每个命名空间。

如果需要注意的话,我有M = 400,N = 4e6,并且数据维度的数量等于整个文档集中的唯一单词标记的数量......

0 投票
1 回答
1117 浏览

machine-learning - Vowpal Wabbit 是否会在多个在线通行证中对数据进行洗牌?

Vowpal Wabbit 是否会在每个 epoch/pass 后自动洗牌?我希望创建的缓存文件将包含在线算法所需的改组元数据,如大众汽车的默认在线 SGD 方法。例如

如果没有,我有一个备份脚本,可以在每次通过时手动洗牌数据

如果 VW 不自动洗牌,那么是否有更有效的方法来执行上述代码块?不幸的是,大众的维基对此并不清楚。谢谢。

0 投票
2 回答
2725 浏览

machine-learning - Vowpal Wabbit 可读模型

我正在使用 Vowpal Wabbit 并生成作为可读模型训练的分类器。

我的数据集有 22 个特征,可读模型作为输出给出:

有人可以向我解释如何解释文件的最后一部分(在选项之后:)?我正在使用逻辑回归,我需要检查迭代训练如何更新我的分类器,以便我可以理解何时达到收敛......

提前致谢 :)

0 投票
1 回答
2061 浏览

c++ - 在 Mac OS X 上编译 Vowpal Wabbit 时找不到头文件

我已使用以下版本的 g++ 将 Vowpal Wabbit(版本 7.4)下载到我的 Mac(OS X Mavericks)上:

我修改了安装随附的 Makefile,以便它从我的 Mac 上的正确文件夹中获取 Boost(版本 1.55)头文件和库(我通过编写和编译一个简单的程序进行检查,一切正常)。但是,当我运行make时,它​​找不到头文件,例如:

感谢您在追踪问题方面的任何帮助。

0 投票
2 回答
2011 浏览

vowpalwabbit - 用于多标签分类的 Vowpal Wabbit 预测

对不起,我确实觉得我忽略了一些非常明显的东西。

但是怎么会发生以下情况:

所以测试文件与训练文件相同,但对于标签。因此,我希望 vw 生成它从训练文件中学到的原始标签,因为它完全忽略了测试文件中的标签。

但是,它似乎重现了测试文件中的标签?!?

显然,我在这里做错了什么……但是什么?