问题标签 [statistics-bootstrap]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - nlsBoot 和 foreach %dopar%:范围问题
我想为nls
循环中的拟合做残差的引导。我使用nlsBoot
and 为了减少计算时间,我想并行执行(目前在 Windows 7 系统上)。这是一些代码,它重现了我的问题:
我怀疑这是环境问题,在查看nlsBoot
问题的代码后,似乎是由于在调用中使用了匿名函数lapply
:
有没有办法nlsBoot
在并行循环中使用?还是我需要修改功能?(我可以尝试使用for
循环而不是lapply
.)
r - 在R中使用texreg进行分位数回归时如何设置se = boot?
我正在运行分位数回归(包quantreg
)并texreg
用于创建我的模型的乳胶输出。
我对引导 se 感兴趣并在摘要选项中设置 se="boot" 但是当我使用 texreg 时,我得到 "nid" se
如何更改该选项?
这是我正在做的事情:
我尝试查看 texreg (在控制台上键入 texreg)并在第 35-38 行发现
如何设置 se 方法?我从未更改过 R 函数,如果这是我需要做的,你能建议一个链接来解释如何做吗?
sas - Block bootstrap from subject list, extract coefficients in PROC MIXED
I'm trying to efficiently implement a block bootstrap technique to get the distribution of regression coefficients from PROC MIXED
. The main outline is as follows:
I have a panel data set, say firm
and year
are the indices. For each iteration of the bootstrap, I wish to sample with replacement n subjects. From this sample, I need to construct a new data set that is a "stack" (concatenated row on top of row) of all the observations for each sampled subject. With this new data set, I can run the regression and pull out the coefficients of interest. Repeat for a bunch of iterations, say 2000.
Each firm can potentially be selected multiple times, so I need to include its data multiple times in each iteration's data set. Using a loop and subset approach, seems computationally burdensome. My real data set quite large (a 2Gb .sas7bdat file).
Example pseudo/explanatory code (please pardon all noob errors!):
This question is identical to a question I asked previously, found here:
block bootstrap from subject list
Any help is appreciated!
r - 用于在 R 中以矩阵形式生成引导样本的快速函数
我有一个矩阵A
,我想从每一列中抽取样本A
并构造新矩阵。例如:
A = matrix(seq(1,9),3,3)
所以要获得第一个引导矩阵,我将从 的第一列(A
即 1、2、3)进行替换(3 次)采样,从 的第二列(A
即 4、5、6)进行替换(3 次)采样,并从 的第三列A
,即 7、8、9中替换(3 次)样本。之后,我通过组合三个引导向量重新构造第一个引导矩阵 B1。我将重复此过程 B=199 次,以便引导矩阵 B1、...、B199 可用。
我的问题是,我怎样才能让这个程序运行得更快?我应该使用哪个功能?我知道apply
本质上涉及for
循环,因此无法保证速度。怎么样do.call
?谢谢!
r - 引导统计值
我想将引导统计的值(原始、偏差和错误)放入一个单独的列表中 - 但我不知道如何做到这一点。
这是一个例子:
现在,我想要的不是文本,而是实际值。显然data$t0
是“原始”,但我不知道如何获得偏差和错误的值。
此外,由于输入函数名称会为您提供其代码,因此我输入boost
了 R 并从源代码中复制了一个片段,并尝试在我的本地 R 安装中搜索它。但是什么也找不到。为什么,R 不应该从本地存储中获取源代码?
r - R中的引导覆盖
我会估计引导区间的覆盖率,因为知道真实平均值是895.0385
. 我有我的向量b<-c(300,300,200,250,600...)
,我做了引导和输出间隔:
但是我如何复制它以获得覆盖概率(它包含真实平均值的多少次)?
r - 引导分层/多级数据(重采样集群)
我正在生成一个脚本,用于从cats
数据集(来自-MASS-
包)创建引导样本。
按照戴维森和欣克利的教科书 [1],我运行了一个简单的线性回归,并采用了一种基本的非参数程序来从独立同分布观察中引导,即对重采样。
原始样本的形式为:
通过一个单变量线性模型,我们想通过他们的大脑重量来解释猫的壁炉重量。
代码是:
现在假设存在一个聚类变量cluster = 1, 2,..., 24
(例如,每只猫都属于给定的垃圾)。为简单起见,假设数据是平衡的:每个集群有 6 个观察值。因此,24 窝中的每一窝都由 6 只猫(即n_cluster = 6
和n = 144
)组成。
可以通过以下方式创建假cluster
变量:
我有两个相关的问题:
如何根据(集群)数据集结构模拟样本?即如何在集群级别进行重采样?我想对具有替换的集群进行采样,并将每个选定集群中的观察设置为原始数据集中的观察值(即在替换集群的情况下进行采样,而不是替换每个集群中的观察)。
这是戴维森(第 100 页)提出的策略。假设我们抽取B = 100
样本。它们中的每一个都应该由 24 个可能经常出现的集群(例如cluster = 3, 3, 1, 4, 12, 11, 12, 5, 6, 8, 17, 19, 10, 9, 7, 7, 16, 18, 24, 23, 11, 15, 20, 1
)组成,并且每个集群应该包含与原始数据集相同的 6 个观察值。如何做到这一点R
?(有或没有-boot-
包裹。)你有其他建议吗?
第二个问题涉及初始回归模型。假设我采用固定效应模型,具有集群级截距。它是否改变了采用的重采样程序?
[1] 戴维森,AC,欣克利,DV(1997 年)。引导方法及其应用。剑桥大学出版社。
matlab - 如何在 BOOTSTRAP 之后查看重新采样的数据
我试图在 Matlab 中使用“bootstrap”重新采样(替换)我的数据库,如下所示:
尽管上面编写的脚本是正确的,但我想知道如何查看/加载通过引导程序创建的重新采样的 100 个数据集?'bootsam(:)' 显示为引导样本选择的数据/值的索引,但不显示新的样本值!我从原始数据中创建假数据,我什至看不到幕后创建的内容,这不是很有趣吗?!?
我的第二个问题:是否可以在不使用任何函数的情况下完全重新采样整个矩阵(在本例中为 D)?但是,我知道如何使用“unidrnd”从矢量数据中创建随机值。
在此先感谢您的帮助。
r - 负二项式的一阶差分引导程序
新手在这里。我在计数数据上拟合负二项式模型,其中 Y 是事件计数,D 是治疗,X 是对数偏移:
我想引导 D=1 和 D=0 之间的第一个差异的置信区间。我已经走了这么远,但不确定这是否是正确的方法:
这是引导第一个差异的正确方法吗?
r - 如何使用 R 有效地引导组(多级)
我正在分析一项包含 40 个人的研究,每个人评价 10 个小插曲。
我想采取引导措施,但我很快意识到采样小插曲是没有意义的。我们应该对人进行抽样(所以我们每人抽样大约 10 行)。
以下功能有效,但它是下一个功能的瓶颈。那么问题来了,如何才能更有效地做到这一点?
子集的问题是我找不到保留重复项的方法。