“statistics-bootstrap”的相关标签问题

0 投票

2 回答

1648 浏览

r - 将引导程序输出写入文件

我是 R 新手，正在尝试对大型频率数据文件的标准误差进行一些引导估计。我的引导程序在单个数据点上工作正常，但我不知道如何保存输出。理想情况下，我只想将标准错误写入新文件。

这是我迄今为止尝试过的：

r statistics-bootstrap

2012-08-10T23:41:26.837

0 投票

5 回答

7642 浏览

r - 从主题列表中阻止引导程序

我正在尝试有效地实现块引导技术来获得回归系数的分布。主要大纲如下。

我有一个面板数据集，并说公司和年份是指数。对于引导程序的每次迭代，我希望对 n 个主题进行替换抽样。从这个样本中，我需要构建一个新的数据框，它是rbind()每个采样对象的所有观察值的堆栈，运行回归并提取系数。重复一堆迭代，比如 100 次。

每个公司都可能被多次选择，所以我需要在每次迭代的数据集中多次包含它的数据。
使用循环和子集方法，如下所示，在计算上似乎很繁重。
请注意，对于我的真实数据框，n 和迭代次数远大于下面的示例。

我最初的想法是使用命令将现有数据框按主题分解为列表split()。从那里，使用

获取新列表，然后可能quickdf从plyr包中实现以构造一个新的数据框。

慢代码示例：

r regression plyr statistics-bootstrap

2012-08-12T04:50:13.820

0 投票

2 回答

945 浏览

linux - 大数据读取子样本 R

我非常感谢您抽出时间阅读本文。

我有一个包含 600 万条记录和 3000 个（主要是分类数据）列的 csv 格式的超大 30GB 文件。我想为多项回归引导子样本，但即使我的机器中有 64GB RAM 和两倍的交换文件，这也很困难，这个过程变得非常缓慢并停止。

我正在考虑在 R 中生成子样本索引并使用 sed 或 awk 将它们输入系统命令，但不知道如何执行此操作。如果有人知道仅使用 R 命令来执行此操作的干净方法，我将不胜感激。

一个问题是我需要选择对子样本的完整观察，也就是说，我需要拥有特定多项式观察的所有行——它们从观察到观察的长度不同。我计划使用 glmnet，然后使用一些花哨的变换来获得多项式情况的近似值。另一点是我不知道如何选择样本大小以适应内存限制。

非常欣赏你的想法。

尤达

linux r awk system statistics-bootstrap

2012-08-16T13:49:29.703

0 投票

1 回答

458 浏览

r - 加速时间序列模拟（用于引导程序）

我需要在具有非标准依赖性的时间序列上运行引导程序。所以要做到这一点，我需要创建一个通过时间调整来模拟时间序列的函数。

当我运行此代码并测量我得到的运行时间时

这对我来说是一个小问题，因为将集成此代码以构建引导程序。这意味着这里花费的任何时间每一步都乘以大约 100。我更新了几千次。这意味着单次运行将需要数小时（到数天）才能运行。

有没有办法加快这段代码的速度？

亲切的问候，

马修

r time-series statistics-bootstrap

2012-08-21T16:27:02.063

0 投票

5 回答

6614 浏览

r - R 中介分析——自举

我正在尝试使用 mediate 包在 R 中进行调解分析。我查看了有关如何执行此操作的文档，并通读了 R 提供的示例（即，我已经运行了“示例（中介）”）。尽管如此，我还是无法运行最简单的调解。理想情况下，我想做一个引导程序，如 Preacher & Hayes (2004)。

这是我要运行的代码：

请注意，数据集称为desirdata，处理称为age，结果称为zpers1，中介称为“zdesir1”。当我运行它时，我收到以下错误：

似乎声称不存在变量（特别是治疗变量）。但是，运行 names(desirdata) 显示该变量存在，并且命名正确，所有其他变量也是如此。前两个模型（model.m 和 model.y）运行良好，输出看起来应该是这样。这只是我无法运行的中介模型。据我所知，我没有打错字，而且我已经检查了一百次。

想法？

r statistics-bootstrap

2012-09-18T21:26:28.327

0 投票

0 回答

362 浏览

r - 如何在 R 中引导戴明回归估计？

我正在研究一个涉及变量误差（戴明）回归的咨询问题，以比较两种测量技术。详细信息在我在 CV 上提出的问题中给出。这是链接。Bill Huber 向我指出了解决戴明回归问题的mcr软件包。cran我被要求进行引导校正，因为某些数据点可能是相关的。

该网站上的任何专家都R可以告诉我如何将戴明回归嵌入到引导程序中吗？

r regression statistics-bootstrap

2012-09-29T13:13:04.933

0 投票

1 回答

1397 浏览

r - 在 R 中做戴明回归。时间敏感

我刚刚将 R 加载到我的 Windows 机器上，并包含引导例程和用于 Deming 回归的 mcr 例程。非常基本的问题。

如何在自举采样例程中嵌入戴明回归？
如何将我的数据输入到 R 中？数据在 Excel 电子表格中。

请尝试给我一个快速的方法。如果可能的话，我今天正在尝试这样做！

r packages statistics-bootstrap

2012-10-05T16:41:58.207

0 投票

1 回答

2183 浏览

r - 自举 nls 期间的奇异梯度误差适合不良数据

我有一个包含一个自变量和一组因变量的数据集。我想使用自举非线性最小二乘法为每组自变量拟合一个函数。在某些情况下，自变量是“质量好的”，即相当好地拟合函数。在其他情况下，它们很吵。

在所有情况下，我都可以nls()用来估计参数。但是，当数据嘈杂时，引导程序会抛出错误Error in nls(...) : singular gradient。我可以理解为什么nls拟合嘈杂的数据会失败，例如在太多迭代后无法收敛，但我不明白为什么它是一个奇异的梯度错误，以及为什么我只得到质量差的重新采样数据集。

代码：

nls完全能够拟合数据（即使在某些情况下，例如a，我怀疑模型是否适合数据。

mmFormula 与数据的 NLS 拟合

自举适用于高质量数据：

但不适用于质量差的数据

是什么导致了这个错误？鉴于我想plyr同时执行大量引导模拟，我应该怎么做？

r nonlinear-functions statistics-bootstrap

2012-10-23T14:35:35.913

0 投票

1 回答

1652 浏览

r - 自举置信区间和对数响应比的平均值

我正在尝试引导 95% 的 CI 和测量平均值，以检查治疗的效果大小。我想使用的方法称为 LnRR 或对数响应比（1、2、3）。它是简单地计算出来的Log(Response to treatment / Response to control)。如果 95% 的 CI 不与 0 重叠，则有超过 95% 的概率自然产生效果。负 LnRR 意味着治疗有负面影响。

引导包中的引导功能有点令人困惑，我正在努力计算 95% 的 CI 和平均值。我试过以下：

我显然做错了什么。如何为此类函数引导置信区间 (boot.ci)？我确信答案就在这里，但由于某种原因，我就是不明白该怎么做。

r statistics-bootstrap

2012-10-24T16:18:48.673

0 投票

1 回答

706 浏览

r - Bootstrap 双向大数据集

可能重复：
引导大型数据集

我想引导一个包含多个列和行变量的大型双向数据集。我必须保留行和列变量。结果应该是一个列表，其中包含每个行变量的所有列变量的引导程序。我正在提供所需的代码来回答我的问题，但我认为它并不优雅。我将不胜感激更好更快的代码。以下是对双向数据集的简化重新创建：

创建一个双向矩阵数据：

向 charDataDiff 矩阵添加一个字符列：

添加列名：

使用行变量“patchId”作为标准分隔数据。这将创建三个列表：每个变量一个

创建函数 sampleBoot 对 patchSpectrum 进行采样

列表“k”回答了我的问题。但是，我认为我的代码对于大型数据集和大型引导程序来说很慢。我只为三个行变量引导 10 次迭代。感谢更快更优雅的代码。

r statistics-bootstrap

2012-10-28T13:56:54.653

问题标签 [statistics-bootstrap]

Reference