问题标签 [vowpalwabbit]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
classification - Vowpal Wabbit 中的纠错锦标赛 (ect) 多类分类
我试图阅读这篇描述 ECT 算法的论文,但无法从中获得太多。
我知道它与一对一(oaa)不同,甚至比 oaa 表现更好。我想简单解释一下 ect 的工作原理。
classification - 如何在非常不平衡的数据集上使用 vowpal wabbit 执行逻辑回归
我正在尝试使用 vowpal wabbit 进行逻辑回归。我不确定这是否是正确的语法
这是我的火车数据中的一个片段
这是我的测试数据中的一个片段
但是,如果我查看结果,预测都是 -1,原始分数都是 0。我有大约 200,000 个示例,其中 100 个为 +1,其余为 -1。为了处理这种不平衡的数据,我给出了 200,000/100 的正例权重和 200,000/(200000-100) 的负例权重。是不是因为我的数据非常不平衡,即使我调整了正在发生的权重?
我期待原始分数文件中的 (P(y|x)) 输出。但我全是零。我只需要概率输出。有什么建议吗?
logistic-regression - 如何在 vowpal wabbit 中选择支持集
我正在使用 vowpal wabbit 进行逻辑回归。我开始知道 vowpal wabbit 从给定的训练数据中选择一个保留集进行验证。这组是随机选择的。我有一个非常不平衡的数据集,其中包含 100 个 +ve 示例和 1000 个 -ve 示例。我想知道给定这些训练数据,vowpal wabbit 如何选择保留示例?
如何为 +ve 示例分配更多权重
python - 从 Python (3.4) 调用 Vowpal Wabbit
我有兴趣在 Mac OS X 上处理 Python 3.4 中的 Vowpal Wabbit。
特别是,我需要:
- 使用一组参数通过 Python 运行 VW(每次运行都在之前完成后开始)
- 将大众汽车通常在终端窗口中显示的所有内容写入文件
- *可选的。使用大众的进度信息查看终端窗口
至于 p.1-2 我刚刚写的
VW 保存了我的模型,但我既没有看到学习进度(因为没有打开终端窗口),也没有看到 output.txt 文件中的任何内容(毕竟它的长度似乎是 0)
非常欢迎任何提示或建议。
machine-learning - 如何使用 vowpal wabbit 的 --keep 和 --ignore 功能?
该文档仅提到这些功能存在,但我找不到示例代码。
我目前有表格的数据
因此我在文件 train.vw 中有一个名为 11 的命名空间
我发出命令
并得到错误
没有保留它工作正常,
vowpalwabbit - Effect of --oaa 2 and --loss_function=logistic in Vowpal Wabbit
What parameters should I use in VW for a binary classification task? For example, let's use rcv1_small.dat. I thought it is better to use the logistic loss function (or hinge) and it makes no sense to use --oaa 2
. However, the empirical results (with progressive validation 0/1 loss reported in all 4 experiments) show that best combination is --oaa 2
without logistic loss (i.e. with the default squared loss):
My primary question is: Why --oaa 2
does not give exactly the same results as --binary
(in the above setting)?
My secondary questions are: Why optimizing the logistic loss does not improve the 0/1 loss (compared to optimizing the default square loss)? Is this a specific of this particular dataset?
logistic-regression - Vowpal Wabbit中逻辑回归的正确性?
我已经开始使用Vowpal Wabbit进行逻辑回归,但是我无法重现它给出的结果。也许它确实存在一些未记录的“魔法”,但有没有人能够复制/验证/检查逻辑回归的计算?
例如,使用下面的简单数据,我们的目标是对age
预测的方式进行建模label
。很明显,随着年龄的增加,观察到 1 的概率会增加,因此存在很强的关系。
作为一个简单的单元测试,我使用了下面的 12 行数据:
现在,使用R、SPSS甚至手动对这个数据集执行逻辑回归,生成一个看起来像 L = 0.2294*age - 14.08
. 因此,如果我替换年龄,并使用 logit 变换 prob=1/(1+EXP(-L)) 我可以获得从0.0001
第一行到0.9864
最后一行的预测概率,正如合理预期的那样。
如果我在Vowpal Wabbit中插入相同的数据,
然后使用执行逻辑回归
(命令行与如何在非常不平衡的数据集上使用 vowpal wabbit 执行逻辑回归一致),我获得了一个L= -0.00094*age - 0.03857
非常不同的模型。
使用获得的预测值-r
或-p
进一步证实了这一点。结果的概率最终几乎完全相同,例如0.4857
年龄=20,而 0.4716
年龄=80,这是非常偏离的。
我也注意到这种与更大数据集的不一致。Vowpal Wabbit 在什么意义上以不同的方式执行逻辑回归,结果如何解释?
vowpalwabbit - Prediction file format in vowpal wabbit with bootstrapping
I'm using VW 7.4 to do some binary classification:
At test time, I can access the scores using:
What I don't get is that, if I add --bootstrap 4
to training, then the resulting pred
file contains 3 columns. I don't know which of them corresponds to the scores of the prediction.
c++ - 从 Vowpal Wabbit 的内存中读取数据?
有没有办法发送数据以在 Vowpal Wabbit 中训练模型而不将其写入磁盘?
这就是我想要做的。我在 csv 中有一个相对较大的数据集(大约 2gb),它可以毫无问题地放入内存中。我将它在 R 中加载到数据框中,并且我有一个函数可以将该数据框中的数据转换为 VW 格式。
现在,为了训练模型,我必须先将转换后的数据写入文件,然后将该文件提供给大众。而且写入磁盘部分花费的时间太长,特别是因为我想尝试具有不同特征转换的不同模型,因此我必须多次将数据写入磁盘。
所以,假设我能够在 R 中创建一个字符向量,其中每个元素都是 VW 格式的一行数据,我怎么能在不将其写入磁盘的情况下将其输入 VW 呢?
我考虑使用守护程序模式并将字符向量写入本地主机连接,但我无法让大众在守护程序模式下进行训练——我不确定这是否可能。
如有必要,我愿意使用 c++(通过 Rcpp 包)来完成这项工作。
非常感谢您提前。
更新:
感谢大家的帮助。如果有人感兴趣,我只是按照答案中的建议将输出通过管道传输到大众,如下所示:
r - 从 (CS)OAA 读取大众原始分数
VowpalWabbit 将来自 (CS)OAA 模型的原始预测写入如下一系列行:
我如何将其读入R
?
这是我的代码:
是否有任何明显的错误/效率低下?有没有更好的办法?
PS。这种数据格式看起来像CRS,但它不是。