问题标签 [statistics-bootstrap]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 将引导程序输出写入文件
我是 R 新手,正在尝试对大型频率数据文件的标准误差进行一些引导估计。我的引导程序在单个数据点上工作正常,但我不知道如何保存输出。理想情况下,我只想将标准错误写入新文件。
这是我迄今为止尝试过的:
r - 从主题列表中阻止引导程序
我正在尝试有效地实现块引导技术来获得回归系数的分布。主要大纲如下。
我有一个面板数据集,并说公司和年份是指数。对于引导程序的每次迭代,我希望对 n 个主题进行替换抽样。从这个样本中,我需要构建一个新的数据框,它是rbind()
每个采样对象的所有观察值的堆栈,运行回归并提取系数。重复一堆迭代,比如 100 次。
- 每个公司都可能被多次选择,所以我需要在每次迭代的数据集中多次包含它的数据。
- 使用循环和子集方法,如下所示,在计算上似乎很繁重。
- 请注意,对于我的真实数据框,n 和迭代次数远大于下面的示例。
我最初的想法是使用命令将现有数据框按主题分解为列表split()
。从那里,使用
获取新列表,然后可能quickdf
从plyr
包中实现以构造一个新的数据框。
慢代码示例:
linux - 大数据读取子样本 R
我非常感谢您抽出时间阅读本文。
我有一个包含 600 万条记录和 3000 个(主要是分类数据)列的 csv 格式的超大 30GB 文件。我想为多项回归引导子样本,但即使我的机器中有 64GB RAM 和两倍的交换文件,这也很困难,这个过程变得非常缓慢并停止。
我正在考虑在 R 中生成子样本索引并使用 sed 或 awk 将它们输入系统命令,但不知道如何执行此操作。如果有人知道仅使用 R 命令来执行此操作的干净方法,我将不胜感激。
一个问题是我需要选择对子样本的完整观察,也就是说,我需要拥有特定多项式观察的所有行——它们从观察到观察的长度不同。我计划使用 glmnet,然后使用一些花哨的变换来获得多项式情况的近似值。另一点是我不知道如何选择样本大小以适应内存限制。
非常欣赏你的想法。
尤达
r - 加速时间序列模拟(用于引导程序)
我需要在具有非标准依赖性的时间序列上运行引导程序。所以要做到这一点,我需要创建一个通过时间调整来模拟时间序列的函数。
当我运行此代码并测量我得到的运行时间时
这对我来说是一个小问题,因为将集成此代码以构建引导程序。这意味着这里花费的任何时间每一步都乘以大约 100。我更新了几千次。这意味着单次运行将需要数小时(到数天)才能运行。
有没有办法加快这段代码的速度?
亲切的问候,
马修
r - R 中介分析——自举
我正在尝试使用 mediate 包在 R 中进行调解分析。我查看了有关如何执行此操作的文档,并通读了 R 提供的示例(即,我已经运行了“示例(中介)”)。尽管如此,我还是无法运行最简单的调解。理想情况下,我想做一个引导程序,如 Preacher & Hayes (2004)。
这是我要运行的代码:
请注意,数据集称为desirdata
,处理称为age
,结果称为zpers1
,中介称为“zdesir1”。当我运行它时,我收到以下错误:
似乎声称不存在变量(特别是治疗变量)。但是,运行 names(desirdata) 显示该变量存在,并且命名正确,所有其他变量也是如此。前两个模型(model.m 和 model.y)运行良好,输出看起来应该是这样。这只是我无法运行的中介模型。据我所知,我没有打错字,而且我已经检查了一百次。
想法?
r - 如何在 R 中引导戴明回归估计?
我正在研究一个涉及变量误差(戴明)回归的咨询问题,以比较两种测量技术。详细信息在我在 CV 上提出的问题中给出。这是链接。Bill Huber 向我指出了解决戴明回归问题的mcr
软件包。cran
我被要求进行引导校正,因为某些数据点可能是相关的。
该网站上的任何专家都R
可以告诉我如何将戴明回归嵌入到引导程序中吗?
r - 在 R 中做戴明回归。时间敏感
我刚刚将 R 加载到我的 Windows 机器上,并包含引导例程和用于 Deming 回归的 mcr 例程。非常基本的问题。
如何在自举采样例程中嵌入戴明回归?
如何将我的数据输入到 R 中?数据在 Excel 电子表格中。
请尝试给我一个快速的方法。如果可能的话,我今天正在尝试这样做!
r - 自举 nls 期间的奇异梯度误差适合不良数据
我有一个包含一个自变量和一组因变量的数据集。我想使用自举非线性最小二乘法为每组自变量拟合一个函数。在某些情况下,自变量是“质量好的”,即相当好地拟合函数。在其他情况下,它们很吵。
在所有情况下,我都可以nls()
用来估计参数。但是,当数据嘈杂时,引导程序会抛出错误Error in nls(...) : singular gradient
。我可以理解为什么nls
拟合嘈杂的数据会失败,例如在太多迭代后无法收敛,但我不明白为什么它是一个奇异的梯度错误,以及为什么我只得到质量差的重新采样数据集。
代码:
nls
完全能够拟合数据(即使在某些情况下,例如a
,我怀疑模型是否适合数据。
自举适用于高质量数据:
但不适用于质量差的数据
是什么导致了这个错误?鉴于我想plyr
同时执行大量引导模拟,我应该怎么做?
r - Bootstrap 双向大数据集
可能重复:
引导大型数据集
我想引导一个包含多个列和行变量的大型双向数据集。我必须保留行和列变量。结果应该是一个列表,其中包含每个行变量的所有列变量的引导程序。我正在提供所需的代码来回答我的问题,但我认为它并不优雅。我将不胜感激更好更快的代码。以下是对双向数据集的简化重新创建:
创建一个双向矩阵数据:
向 charDataDiff 矩阵添加一个字符列:
添加列名:
使用行变量“patchId”作为标准分隔数据。这将创建三个列表:每个变量一个
创建函数 sampleBoot 对 patchSpectrum 进行采样
列表“k”回答了我的问题。但是,我认为我的代码对于大型数据集和大型引导程序来说很慢。我只为三个行变量引导 10 次迭代。感谢更快更优雅的代码。