问题标签 [vowpalwabbit]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
58 浏览

vowpalwabbit - 用整数 ID 替换字符串标签并返回

我的数据文件包含第一个实体是字符串标签后跟特征的行。例如:

问题是 Vowpal Wabbit 只接受整数标签。如何快速从字符串标签更改为唯一整数 ID 并返回?也就是快速修改数据文件为:

...并在需要时返回。

对于我的示例数据集,我使用“sed”为每个类手动完成,但这严重破坏了我的工作流程。

0 投票
2 回答
1104 浏览

vowpalwabbit - vowpal wabbit 中的 `--save_resume` 选项到底有什么作用

我正在用来自两个不同来源的数据流训练一个神经网络,启发式地:

但是,这会引发一个错误,即“--oaa 不能多次传递”。很好,--save_resume坚持配置参数,所以我修改了:

一切正常。出于好奇,我在没有--save_resume选项的情况下重复了第二种方法,一切仍然有效,只是模型性能稍差一些。

我推测这会--save_resume保存在权重文件中看到的学习率和示例数量。这似乎是从输出中发生的事情,并证实了更好的性能。还有别的事吗?

编辑:经过一些实验,我发现通过初始回归-i量是引发“选项'--oaa'不能指定多次错误”的原因,而不是--save_resume.

0 投票
2 回答
228 浏览

python - Vowpal Wabbit LDA:模型选择

大众内部有什​​么方法可以比较 LDA 的模型拟合度吗?软件输出的渐进式损失是否对这个目的有意义?

0 投票
1 回答
581 浏览

vowpalwabbit - 未找到 Vowpal Wabbit 实用程序的命令

概括

我使用此处的 GitHub 站点在我的 Mac 上安装了 Vowpal Wabbit (当我开始进行故障排除时也使用 Homebrew)。两种安装都有效,因为我能够使用该vw命令并得到回复“有关更多信息,请使用:vw --help”。

问题

但是,“vowpal_wabbit/utl”下的实用程序似乎对我不起作用(例如-bash: vw-top-errors: command not found-bash: vw-varinfo: command not found)。我试图通过创建别名 ( alias vw=/Users/williamliu/GitHub/vowpal_wabbit/vowpalwabbit/vw) 来解决,但这似乎并没有解决问题。我还尝试将我的 PATH 指向 vowpalwabbit 的实用程序(导出PATH=/Users/williamliu/GitHub/vowpal_wabbit/vowpalwabbit/vw:$PATH

有没有人有什么建议?谢谢。

0 投票
1 回答
300 浏览

vowpalwabbit - Vowpal Wabbit - 它是如何进行散列的

谁能解释一下散列技巧是如何在大众中进行的?具体来说,下面的描述,来自要点:

默认值是使用 murmurhash v3(仅限 32 位)算法的变体将特征名称散列/投影到机器架构无符号字,然后与 (2^k)-1 进行与运算(即投影到第一个 k其余为 0 的低阶位)。

提到哈希与 (2^k)-1 进行“与”运算的结果。这是什么意思?我知道如果哈希是 mod 某个数字 D (hash('my string')%D),它会产生一个只能采用 D 值的新数字。这和AND'ed一样吗?如果是这样,它究竟是如何工作的?

0 投票
1 回答
809 浏览

vowpalwabbit - 如何从 vowpal wabbit 中的上下文强盗中提取输出策略?

我正在为上下文强盗运行此示例,以他们的示例数据为例:

以命令作为他们的建议: vw -d train.dat --cb 4 --cb_type dr -f traindModel

我想知道如何从该命令中提取策略以及如何解释它?

然后我去

并收到这样的输出

如何解释这些结果?如何提取策略?

我也尝试过这种类型的命令:

并得到以下结果:

d为什么输出只有 5 条记录,而c, b,有 7 条记录a?它是否对应于数据中出现 3 次且仅 2 次的特征c, b, ?还有8个常量行..它们对应什么?ad

0 投票
1 回答
406 浏览

vowpalwabbit - Vowpal Wabbit 公式中的自适应更新

我正在查看以下 2 个关于使用 --adaptive 标志时 VW 所做更新的演示文稿。好像这些都不一样。

  1. http://www.slideshare.net/jakehofman/technical-tricks-of-vowpal-wabbit
  2. https://github.com/JohnLangford/vowpal_wabbit/wiki/v6.1_tutorial.pdf

使用这两个描述(分别):

#1

在此处输入图像描述

#2

在此处输入图像描述

我的问题:

  1. 哪些是正确的(或者它们是相同的)?

  2. 对于数字 1,分母中似乎使用了 t+1 示例中的梯度。这是怎么做到的?这是否意味着新的权重(标记为 w_i)是例如 t+1 的权重?

0 投票
1 回答
2024 浏览

namespaces - In Vowpal Wabbit, what is the difference between a namespace and feature?

While carrying out analysis in R or python we are only aware of feature names (their values) and use them. In Vowpal Wabbit we also have Namespaces.

I am unable to understand: a. what is meant by Namespace; b. how is it different from features; c. when is it used? And when not used? That is, can we avoid using it. d. And how is it used?

Will be grateful for one or two examples. Sorry for so many questions.

0 投票
1 回答
4158 浏览

vowpalwabbit - Vowpal Wabbit 如何表示分类特征

我有以下所有分类变量的数据:

这里的教育有四个级别(基本、低、高和 v_high)。收入有低和高两个层次;并且 social_standing 具有三个级别(好、v_good 和 not_good)。

就我对将上述数据转换为大众格式的理解而言,它将是这样的:

这里,“人”是命名空间,所有其他都是特征值,以各自的特征名称为前缀。我对么?不知何故,这种特征值的表示让我很困惑。有没有其他方式来表示特征?应不胜感激。

0 投票
1 回答
602 浏览

vowpalwabbit - 原始预测 (-r) 和预测 (-p) 之间的 Vowpal Wabbit 差异

我正在尝试对二进制数据进行分类。在数据文件中,类 [0,1] 被转换为 [-1,1]。数据有 21 个特征。所有特征都是分类的。我正在使用神经网络进行训练。训练命令为:

我将原始预测文件创建为:

和正常的预测文件为:

原始文件的前五行是:

(正常)预测文件的前五行是:

我已经用原始输出计算了这个(正常)输出。我注意到五个原始行中的每一行中的(最后一个或)结束浮点值都与上面相同。

我想了解原始输出以及正常输出。每行包含 22 对值与 22 个神经元有关吗?如何将输出解释为 [-1,1] 以及为什么需要使用 sigmoid 函数将上述任何一种转换为概率。将不胜感激。