问题标签 [statistics-bootstrap]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
558 浏览

r - nlsBoot 和 foreach %dopar%:范围问题

我想为nls循环中的拟合做残差的引导。我使用nlsBootand 为了减少计算时间,我想并行执行(目前在 Windows 7 系统上)。这是一些代码,它重现了我的问题:

我怀疑这是环境问题,在查看nlsBoot问题的代码后,似乎是由于在调用中使用了匿名函数lapply

有没有办法nlsBoot在并行循环中使用?还是我需要修改功能?(我可以尝试使用for循环而不是lapply.)

0 投票
2 回答
420 浏览

r - 在R中使用texreg进行分位数回归时如何设置se = boot?

我正在运行分位数回归(包quantreg)并texreg用于创建我的模型的乳胶输出。

我对引导 se 感兴趣并在摘要选项中设置 se="boot" 但是当我使用 texreg 时,我得到 "nid" se

如何更改该选项?

这是我正在做的事情:

我尝试查看 texreg (在控制台上键入 texreg)并在第 35-38 行发现

如何设置 se 方法?我从未更改过 R 函数,如果这是我需要做的,你能建议一个链接来解释如何做吗?

0 投票
1 回答
921 浏览

sas - Block bootstrap from subject list, extract coefficients in PROC MIXED

I'm trying to efficiently implement a block bootstrap technique to get the distribution of regression coefficients from PROC MIXED. The main outline is as follows:

I have a panel data set, say firm and year are the indices. For each iteration of the bootstrap, I wish to sample with replacement n subjects. From this sample, I need to construct a new data set that is a "stack" (concatenated row on top of row) of all the observations for each sampled subject. With this new data set, I can run the regression and pull out the coefficients of interest. Repeat for a bunch of iterations, say 2000.

Each firm can potentially be selected multiple times, so I need to include its data multiple times in each iteration's data set. Using a loop and subset approach, seems computationally burdensome. My real data set quite large (a 2Gb .sas7bdat file).

Example pseudo/explanatory code (please pardon all noob errors!):

This question is identical to a question I asked previously, found here:

block bootstrap from subject list

Any help is appreciated!

0 投票
1 回答
1874 浏览

r - 用于在 R 中以矩阵形式生成引导样本的快速函数

我有一个矩阵A,我想从每一列中抽取样本A并构造新矩阵。例如:

A = matrix(seq(1,9),3,3)

所以要获得第一个引导矩阵,我将从 的第一列(A即 1、2、3)进行替换(3 次)采样,从 的第二列(A即 4、5、6)进行替换(3 次)采样,并从 的第三列A,即 7、8、9中替换(3 次)样本。之后,我通过组合三个引导向量重新构造第一个引导矩阵 B1。我将重复此过程 B=199 次,以便引导矩阵 B1、...、B199 可用。

我的问题是,我怎样才能让这个程序运行得更快?我应该使用哪个功能?我知道apply本质上涉及for循环,因此无法保证速度。怎么样do.call?谢谢!

0 投票
1 回答
1965 浏览

r - 引导统计值

我想将引导统计的值(原始、偏差和错误)放入一个单独的列表中 - 但我不知道如何做到这一点。

这是一个例子:

现在,我想要的不是文本,而是实际值。显然data$t0是“原始”,但我不知道如何获得偏差和错误的值。


此外,由于输入函数名称会为您提供其代码,因此我输入boost了 R 并从源代码中复制了一个片段,并尝试在我的本地 R 安装中搜索它。但是什么也找不到。为什么,R 不应该从本地存储中获取源代码?

0 投票
1 回答
946 浏览

r - R中的引导覆盖

我会估计引导区间的覆盖率,因为知道真实平均值是895.0385. 我有我的向量b<-c(300,300,200,250,600...),我做了引导和输出间隔:

但是我如何复制它以获得覆盖概率(它包含真实平均值的多少次)?

0 投票
2 回答
5172 浏览

r - 引导分层/多级数据(重采样集群)

我正在生成一个脚本,用于从cats数据集(来自-MASS-包)创建引导样本。

按照戴维森和欣克利的教科书 [1],我运行了一个简单的线性回归,并采用了一种基本的非参数程序来从独立同分布观察中引导,即对重采样

原始样本的形式为:

通过一个单变量线性模型,我们想通过他们的大脑重量来解释猫的壁炉重量。

代码是:

现在假设存在一个聚类变量cluster = 1, 2,..., 24(例如,每只猫都属于给定的垃圾)。为简单起见,假设数据是平衡的:每个集群有 6 个观察值。因此,24 窝中的每一窝都由 6 只猫(即n_cluster = 6n = 144)组成。

可以通过以下方式创建假cluster变量:

我有两个相关的问题:

如何根据(集群)数据集结构模拟样本?即如何在集群级别进行重采样?我想对具有替换的集群进行采样,并将每个选定集群中的观察设置为原始数据集中的观察值(即在替换集群的情况下进行采样,而不是替换每个集群中的观察)。

这是戴维森(第 100 页)提出的策略。假设我们抽取B = 100样本。它们中的每一个都应该由 24 个可能经常出现的集群(例如cluster = 3, 3, 1, 4, 12, 11, 12, 5, 6, 8, 17, 19, 10, 9, 7, 7, 16, 18, 24, 23, 11, 15, 20, 1)组成,并且每个集群应该包含与原始数据集相同的 6 个观察值。如何做到这一点R?(有或没有-boot-包裹。)你有其他建议吗?

第二个问题涉及初始回归模型。假设我采用固定效应模型,具有集群级截距。它是否改变了采用的重采样程序?

[1] 戴维森,AC,欣克利,DV(1997 年)。引导方法及其应用。剑桥大学出版社。

0 投票
1 回答
4224 浏览

matlab - 如何在 BOOTSTRAP 之后查看重新采样的数据

我试图在 Matlab 中使用“bootstrap”重新采样(替换)我的数据库,如下所示:

尽管上面编写的脚本是正确的,但我想知道如何查看/加载通过引导程序创建的重新采样的 100 个数据集?'bootsam(:)' 显示为引导样本选择的数据/值的索引,但不显示新的样本值!我从原始数据中创建假数据,我什至看不到幕后创建的内容,这不是很有趣吗?!?

我的第二个问题:是否可以在不使用任何函数的情况下完全重新采样整个矩阵(在本例中为 D)?但是,我知道如何使用“unidrnd”从矢量数据中创建随机值。

在此先感谢您的帮助。

0 投票
1 回答
960 浏览

r - 负二项式的一阶差分引导程序

新手在这里。我在计数数据上拟合负二项式模型,其中 Y 是事件计数,D 是治疗,X 是对数偏移:

我想引导 D=1 和 D=0 之间的第一个差异的置信区间。我已经走了这么远,但不确定这是否是正确的方法:

这是引导第一个差异的正确方法吗?

0 投票
2 回答
299 浏览

r - 如何使用 R 有效地引导组(多级)

我正在分析一项包含 40 个人的研究,每个人评价 10 个小插曲。

我想采取引导措施,但我很快意识到采样小插曲是没有意义的。我们应该对人进行抽样(所以我们每人抽样大约 10 行)。

以下功能有效,但它是下一个功能的瓶颈。那么问题来了,如何才能更有效地做到这一点?

子集的问题是我找不到保留重复项的方法。