问题标签 [vowpalwabbit]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
4261 浏览

performance - VowpalWabbit: Differences and scalability

I am trying to ascertain how VowpalWabbit's "state" is maintained as the size of our input set grows. In a typical machine learning environment, if I have 1000 input vectors, I would expect to send all of those at once, wait for a model building phase to complete, and then use the model to create new predictions.

In VW, it appears that the "online" nature of the algorithm shifts this paradigm to be more performant and capable of adjusting in real-time.

  1. How is this real-time model modification implemented ?

  2. 随着时间的推移,大众是否会在总输入数据大小方面占用越来越多的资源?也就是说,当我向我的大众模型添加更多数据时(当它很小时),一旦特征向量输入的累积数量增加到 1000、10000 或数百万,实时调整计算是否开始花费更长的时间?

0 投票
1 回答
3717 浏览

macos - Dylibs 和 OS X

我正在尝试在 mac os x 中运行一个名为 vowpal-wabbit(6.0 版)的程序。

我用自制软件安装了一些东西,比如 lib 工具,重要的是,boost。

然而——我发现,即使

显然有所有的 boost 库,(包括 lib boost_program_options.dylib)...

尝试运行二进制文件时收到的错误消息是:

运行“make”以从头开始构建此二进制文件时,我得到相同的(基本上)错误:

所以......我想我的问题是:我怎样才能让我编译的二进制文件“看到” libboost_program_options.dylib ?或者……我怎样才能让 vw(6.0 版)在 os x lion 上运行。

0 投票
3 回答
2857 浏览

machine-learning - 由于 vowpal wabbit 对 boost 库的依赖而导致的错误

我正在努力安装 vowpal wobbit,当我运行 make 文件时它失败了,抛出:

然后我通过指定 -L/usr/local/lib 在此处添加了指向 boost 库的链接

现在我收到以下错误:

0 投票
2 回答
551 浏览

c++ - 在 ubuntu 中编译 vowpal-wabbit 以在 windows 7 中使用

我有一Windows 7台笔记本电脑,Ubuntu 12.04安装在同一台机器上。

我正在尝试从源代码 ( VowPal Wabbit) 编译程序。我尝试使用Cygwin但没有运气让它工作。我最终安装Ubuntu 12.04以获得获得功能正常的编译器的访问权限。

它在Ubuntu一边工作,但我很好奇是否有办法将编译后的文件带到Windows那里,因为那是我实际做大部分工作的地方。更具体地说,编译的程序会在Ubuntu机器上运行Windows吗?

有什么建议么?

0 投票
6 回答
3655 浏览

c++ - 有没有人在 Windows 7 机器上成功编译过 Vowpal Wabbit?

我正在尝试在 Windows 7 机器上编译 Vowpal Wabbit,在尝试了 Netbeans、Cygwin 和 MinGW 之后,我开始怀疑我是否正在尝试一些可行的方法。

以上每个都需要* *.h 文件,这些文件不是为 Windows 设计的,例如 sys/socket.h。

任何实际这样做过的人,我都会很感激任何建议。

0 投票
5 回答
20021 浏览

r - 从数据框中写入 gzip 文件

我正在尝试将数据框写入 gzip 文件但遇到问题。

这是我的代码示例:

错误writeLines(df1):无效的“文本”参数

有什么建议么?

编辑:我正在尝试编写的字符向量的示例行是:

类标签 / y 变量由“|”与 x-var 分隔,变量名称与值由“:”和变量之间的空格分隔。

EDIT2:我为问题的措辞/格式道歉,但结果如下:旧方法:

新方法:

非常感谢大家帮我解决这个问题。

0 投票
1 回答
200 浏览

php - 从 PHP 调用 Vowpal Wabbit?

我正在尝试调用 Vowpal Wabbit 并将结果返回到 php 脚本和网页;

当我回显输出时:

它是空的,尽管当我在终端中运行脚本时它运行得很好。

当我对 php 文件中的 $output 执行 var_dump 时,它返回 NULL

0 投票
2 回答
2096 浏览

vowpalwabbit - 在交叉验证方面需要一些关于 Vowpal Wabbit 的指示

我的目标是在参数空间中对各种 VW 模型进行网格搜索(尝试不同的损失函数和正则化等)。由于模型可以使用多次传递,我想使用交叉验证。我想知道我是否应该实现自己的交叉验证代码(也许作为 bash 脚本),或者我是否应该重新发明轮子。任何关于这之前是否已经完成等或最佳方法的指示都是有用的。我正在考虑在 bash 脚本中实现交叉验证并使用 GNU 并行来并行化网格搜索

0 投票
1 回答
2086 浏览

vowpalwabbit - 为 vowpal wabbit 中的示例设置权重的实用指南

我有一个数据集的多类分类问题(有 6 个目标类)。训练数据具有类标签的倾斜分布:下面是每个类标签的分布(1 到 6)

我正在使用 vowpal wabbit 的 oaa 方案进行分类,并为每个示例尝试了默认权重 1.0。然而,对于大多数模型,这只会导致模型对评估中的所有示例预测为 1.0(因为标签 1 在训练集中具有非常大的表示)。

我现在正在尝试尝试不同的权重,我可以将这些权重应用于每个类的示例,以帮助提高分类器的性能。

任何关于决定每个示例权重的技术的指针或实用技巧都将非常有用。一种可能的技术是根据频率以反比对示例进行加权。不幸的是,这似乎导致分类器极大地偏向标签 2 和 3 ,并预测评估中几乎所有内容的 2 和 3。

模型选择会在决定权重方面发挥作用吗?我正在试验神经网络、逻辑和铰链损失函数。

0 投票
1 回答
980 浏览

machine-learning - 当被要求对训练集进行预测时,训练集的错误率很高,但训练时的平均损失很低

我正在使用 vowpal wabbit 训练模型并注意到一些非常奇怪的东西。在训练期间,报告的平均损失非常低,约为 0.06。但是我注意到,当我要求模型在相同的训练数据上预测标签时,平均损失高达 0.66 左右,并且模型在预测训练数据的标签方面表现不佳。我最初的猜想是模型遭受了很大的偏差,因此我增加了模型的复杂性以在第一层使用 300 个隐藏节点,但问题仍然存在。

我将不胜感激有关可能发生的事情的指示

大众汽车的教程幻灯片提到:“如果你在火车上进行测试,它会起作用吗?(不 => 有点疯狂)”

所以似乎发生了一些非常疯狂的事情,我试图了解我应该在哪里更深入地挖掘。

更多细节:我正在使用 vowpal wabbit 进行命名实体识别任务,其中特征是单词表示。我正在尝试使用具有多个隐藏单元的神经网络的几个模型并尝试评估模型。然而,当我对训练数据本身进行测试时,我所有的训练模型都表现出很高的平均损失,我觉得这很奇怪。

这是重现问题的一种方法:

培训输出:

现在,当我使用相同的数据(用于训练)评估上述模型时

我尝试过的事情: 1.我尝试将隐藏节点的数量增加到 600,但无济于事。2.我还尝试使用具有 300 个隐藏节点的二次特征,但这也无济于事。

尝试 1.) 和 2.) 背后的基本原理是增加模型复杂性,假设高训练误差是由于高偏差造成的。

更新:更有趣的是,如果我在测试阶段将通过次数指定为 4(即使我假设模型会学习决策边界),那么问题就会消失。我试图理解为什么?