问题标签 [statistics-bootstrap]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1648 浏览

r - 将引导程序输出写入文件

我是 R 新手,正在尝试对大型频率数据文件的标准误差进行一些引导估计。我的引导程序在单个数据点上工作正常,但我不知道如何保存输出。理想情况下,我只想将标准错误写入新文件。

这是我迄今为止尝试过的:

0 投票
5 回答
7642 浏览

r - 从主题列表中阻止引导程序

我正在尝试有效地实现块引导技术来获得回归系数的分布。主要大纲如下。

我有一个面板数据集,并说公司和年份是指数。对于引导程序的每次迭代,我希望对 n 个主题进行替换抽样。从这个样本中,我需要构建一个新的数据框,它是rbind()每个采样对象的所有观察值的堆栈,运行回归并提取系数。重复一堆迭代,比如 100 次。

  • 每个公司都可能被多次选择,所以我需要在每次迭代的数据集中多次包含它的数据。
  • 使用循环和子集方法,如下所示,在计算上似乎很繁重。
  • 请注意,对于我的真实数据框,n 和迭代次数远大于下面的示例。

我最初的想法是使用命令将现有数据框按主题分解为列表split()。从那里,使用

获取新列表,然后可能quickdfplyr包中实现以构造一个新的数据框。

慢代码示例:

0 投票
2 回答
945 浏览

linux - 大数据读取子样本 R

我非常感谢您抽出时间阅读本文。

我有一个包含 600 万条记录和 3000 个(主要是分类数据)列的 csv 格式的超大 30GB 文件。我想为多项回归引导子样本,但即使我的机器中有 64GB RAM 和两倍的交换文件,这也很困难,这个过程变得非常缓慢并停止。

我正在考虑在 R 中生成子样本索引并使用 sed 或 awk 将它们输入系统命令,但不知道如何执行此操作。如果有人知道仅使用 R 命令来执行此操作的干净方法,我将不胜感激。

一个问题是我需要选择对子样本的完整观察,也就是说,我需要拥有特定多项式观察的所有行——它们从观察到观察的长度不同。我计划使用 glmnet,然后使用一些花哨的变换来获得多项式情况的近似值。另一点是我不知道如何选择样本大小以适应内存限制。

非常欣赏你的想法。

尤达

0 投票
1 回答
458 浏览

r - 加速时间序列模拟(用于引导程序)

我需要在具有非标准依赖性的时间序列上运行引导程序。所以要做到这一点,我需要创建一个通过时间调整来模拟时间序列的函数。

当我运行此代码并测量我得到的运行时间时

这对我来说是一个小问题,因为将集成此代码以构建引导程序。这意味着这里花费的任何时间每一步都乘以大约 100。我更新了几千次。这意味着单次运行将需要数小时(到数天)才能运行。

有没有办法加快这段代码的速度?

亲切的问候,

马修

0 投票
5 回答
6614 浏览

r - R 中介分析——自举

我正在尝试使用 mediate 包在 R 中进行调解分析。我查看了有关如何执行此操作的文档,并通读了 R 提供的示例(即,我已经运行了“示例(中介)”)。尽管如此,我还是无法运行最简单的调解。理想情况下,我想做一个引导程序,如 Preacher & Hayes (2004)。

这是我要运行的代码:

请注意,数据集称为desirdata,处理称为age,结果称为zpers1,中介称为“zdesir1”。当我运行它时,我收到以下错误:

似乎声称不存在变量(特别是治疗变量)。但是,运行 names(desirdata) 显示该变量存在,并且命名正确,所有其他变量也是如此。前两个模型(model.m 和 model.y)运行良好,输出看起来应该是这样。这只是我无法运行的中介模型。据我所知,我没有打错字,而且我已经检查了一百次。

想法?

0 投票
0 回答
362 浏览

r - 如何在 R 中引导戴明回归估计?

我正在研究一个涉及变量误差(戴明)回归的咨询问题,以比较两种测量技术。详细信息在我在 CV 上提出的问题中给出。是链接。Bill Huber 向我指出了解决戴明回归问题的mcr软件包。cran我被要求进行引导校正,因为某些数据点可能是相关的。

该网站上的任何专家都R可以告诉我如何将戴明回归嵌入到引导程序中吗?

0 投票
1 回答
1397 浏览

r - 在 R 中做戴明回归。时间敏感

我刚刚将 R 加载到我的 Windows 机器上,并包含引导例程和用于 Deming 回归的 mcr 例程。非常基本的问题。

  1. 如何在自举采样例程中嵌入戴明回归?

  2. 如何将我的数据输入到 R 中?数据在 Excel 电子表格中。

请尝试给我一个快速的方法。如果可能的话,我今天正在尝试这样做!

0 投票
1 回答
2183 浏览

r - 自举 nls 期间的奇异梯度误差适合不良数据

我有一个包含一个自变量和一组因变量的数据集。我想使用自举非线性最小二乘法为每组自变量拟合一个函数。在某些情况下,自变量是“质量好的”,即相当好地拟合函数。在其他情况下,它们很吵。

在所有情况下,我都可以nls()用来估计参数。但是,当数据嘈杂时,引导程序会抛出错误Error in nls(...) : singular gradient。我可以理解为什么nls拟合嘈杂的数据会失败,例如在太多迭代后无法收敛,但我不明白为什么它是一个奇异的梯度错误,以及为什么我只得到质量差的重新采样数据集。

代码:

nls完全能够拟合数据(即使在某些情况下,例如a,我怀疑模型是否适合数据。

mmFormula 与数据的 NLS 拟合

自举适用于高质量数据:

但不适用于质量差的数据

是什么导致了这个错误?鉴于我想plyr同时执行大量引导模拟,我应该怎么做?

0 投票
1 回答
1652 浏览

r - 自举置信区间和对数响应比的平均值

我正在尝试引导 95% 的 CI 和测量平均值,以检查治疗的效果大小。我想使用的方法称为 LnRR 或对数响应比(123)。它是简单地计算出来的Log(Response to treatment / Response to control)。如果 95% 的 CI 不与 0 重叠,则有超过 95% 的概率自然产生效果。负 LnRR 意味着治疗有负面影响。

引导包中的引导功能有点令人困惑,我正在努力计算 95% 的 CI 和平均值。我试过以下:

我显然做错了什么。如何为此类函数引导置信区间 (boot.ci)?我确信答案就在这里,但由于某种原因,我就是不明白该怎么做。

0 投票
1 回答
706 浏览

r - Bootstrap 双向大数据集

可能重复:
引导大型数据集

我想引导一个包含多个列和行变量的大型双向数据集。我必须保留行和列变量。结果应该是一个列表,其中包含每个行变量的所有列变量的引导程序。我正在提供所需的代码来回答我的问题,但我认为它并不优雅。我将不胜感激更好更快的代码。以下是对双向数据集的简化重新创建:

创建一个双向矩阵数据:

向 charDataDiff 矩阵添加一个字符列:

添加列名:

使用行变量“patchId”作为标准分隔数据。这将创建三个列表:每个变量一个

创建函数 sampleBoot 对 patchSpectrum 进行采样

列表“k”回答了我的问题。但是,我认为我的代码对于大型数据集和大型引导程序来说很慢。我只为三个行变量引导 10 次迭代。感谢更快更优雅的代码。