问题标签 [statistics-bootstrap]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
950 浏览

r - 在 R 中重新采样纵向数据集

我有一个纵向数据集,其中包含所有个人的每个观察的一行。每次观察都有几个测量值,其中一些可能会丢失。个人的观察数量变化很大,并且有大量的辍学。这是数据集的一部分

我需要的是从该数据集中生成引导样本,其中保留了各个集群,这样如果对个体进行采样,则该 ID 的整个观察集都会进入引导样本。当然,一个人可能会被多次采样,在这种情况下,它应该输入重新采样的数据适当的次数,并且理想情况下会收到一个更改的 ID 号,例如 10056.1、10056.2。

现在,我将尽力解决这个问题,但如果有人对我如何快速做到这一点有任何想法,我将不胜感激。

编辑:我最终使用了什么

0 投票
2 回答
136 浏览

r - 通过自举选择两个随机数

我有一个 1020 尺寸测量的数据集。我需要根据这 1020 个数字创建一个新数据集,方法是随机取出替换数字。但是,我需要通过以下方式进行随机抽样:

  1. 从原始数据集中随机取出两个数字。
  2. 选择这两个随机数中较大的一个。
  3. 将这个更大的数字放入新数据集中。
  4. 多次重复步骤 1-3,我有一个 1020 大小的新数据集(就像在原始数据集中一样),并且我总共有 10000 个大小为 1020 的新数据集。

我确实设法通过使用引导方法从原始数据集中随机挑选数字来基于原始数据集创建 10000 个新数据集:

但我不知道,如何使用上面的这个命令来获取两个随机数,选择更大的一个,并在新数据集中拥有这个更大的一个。

会不会是下面的东西?

然后有一些命令(我不知道)有没有点是要从两个中获得更大的数字到新的数据集中?

0 投票
0 回答
1117 浏览

r - R: Complex numbers not compatible with boot() function

I found out that boot function of the boot package is not working with complex numbers. I am trying to bootstrap a data by taking the eigenvalue of the bivariate matrix. The problem with the eigenvalue is that, it often returns complex numbers, and by that it (boot) gives error. Is there a way to avoid complex numbers?

Here is my codes,

Below are some functions needed,

And here is the main method,

The problem occurs in y.boot object, particularly this line

When the obtain minimum eigenvalue is complex, then boot will return this error

Otherwise, there is no problem. Now, it would be safe if this 100 bootstraps is performed once, but I am going to loop this actually about 100 times too. So, there is a big chance that complex values will occur in these loops. Hence, we will obtain the above error again.

Is there a way to avoid these complex values?

0 投票
1 回答
5471 浏览

r - 为逻辑回归模型引导 CI

我有一个逻辑回归模型,我用它来预测帝王蟹成熟时的大小,但是我在使用引导包设置引导代码时遇到了麻烦。这就是我所拥有的:

我想引导统计 CL=98.97 因为我对 50% 的螃蟹成熟的大小感兴趣,但我不知道如何设置我的函数来指定该统计数据,更不用说引导函数了获得我的 95% CI 任何帮助将不胜感激!谢谢!

0 投票
1 回答
1452 浏览

r - How to bootstrap respecting within-subject information?

This is the first time I post to this forum, and I want to say from the start I am not a skilled programmer. So please let me know if the question or code were unclear!

I am trying to get the 95% confidence interval (CI) for an interaction (that is my test statistic) by doing bootstrapping. I am using the package "boot". My problem is that for every resample, I would like the randomization to be done within subjects, so that observations from different subjects are not mixed. Here is the code to generate a dataframe similar to mine. As you can see, I have two within-subjects factors ("Num" and "Gram" and I am interested in the interaction between both):

This is the code I used to get the empirical interaction value:

As you can see, the interaction between my two factors is -348. I want to get a bootstrap confidence interval for this statistic, which I can generate using the "boot" package:

My problem is that I think the resamples should be generated without mixing the individual subjects observations: that is, to generate the new resamples, the observations from subject 1 (S1) should be shuffled within subject 1, not mixing them with the observations from subjects 2, etc... I don't know how "boot" is doing the resampling (I read the documentation but don't understand how the function is doing it)

Does anyone know how I could make sure that the resampling procedure used by "boot" respects subject level information?

Thanks a lot for your help/advice!

0 投票
1 回答
1483 浏览

simulation - 在Stata中引导逐步回归

我正在尝试在 Stata 中引导逐步回归并提取引导系数。我有两个单独的 ado 文件。sw_pbs 是用户使用的命令,它调用了辅助命令 sw_pbs_simulator。

输出是自举系数的数据集。我的问题是输出似乎取决于第一次逐步回归模拟的结果。例如,如果我有自变量 var1 var2 var3 var4 并且第一次逐步模拟在模型中只包含 var1 和 var2,那么后续模型中只会出现 var1 和 var2。如果第一个模拟包括 var1 var2 和 var3 则只有 var1 var2 和 var3 将出现在后续模型中,假设它们是显着的(如果不是,它们的系数将显示为点)。

例如,不正确的输出如下所示。如果变量 lweight、age、lbph、svi、gleason 和 pgg45 在第一次模拟中没有出现,则它们永远不会出现。

我希望模型中未包含的系数在数据集中始终显示为点,并且我希望后续模拟看起来不依赖于第一次模拟。

0 投票
1 回答
2277 浏览

r - 逻辑回归和引导

我正在尝试首先使用lrmfrom package运行逻辑回归RMS。我的模型适用于glm但不适用于lrm.

如果 ISS1ISS2被删除,模型会运行,但对于这两个变量,它不会。错误信息:

我需要使用 运行它lrm,因为validate使用引导程序的包(显然)只能使用lrm. 任何帮助,将不胜感激。

0 投票
1 回答
1877 浏览

matlab - 使用自举法计算比例的置信区间 - Matlab

我有一个简单的 nx1 整数数组,我想引导它来评估比例的置信区间。

我找到了 IBM SPSS 的解决方案,但我想用 matlab 做这个分析,你可以在这里找到例子:http: //publib.boulder.ibm.com/infocenter/spssstat/v20r0m0/index.jsp ?topic=%2Fcom.ibm.spss.statistics.cs%2Fbootstrap_telco_frequencies_table.htm

在 Matlab 中,我有这些数据,它来自名为c的数组列表:

我尝试将引导置信区间用作 BOOTFUN,如下表达式:

我的意思是n是前一个数组的比例。

最后我使用 bootci 函数来评估间隔:

我知道我在 bootfun 的设置上错了,但我不知道如何解决它,因此我希望得到你的帮助。我希望问题足够清楚。

0 投票
0 回答
1749 浏览

r - R:量化来自 lme4 的预测的不确定性(predict.merMod)

我有以下混合效应模型,其中包含两个交叉随机效应,用于模拟树的生长:

我正在使用这个模型来预测新数据,并且很高兴看到lme4的开发版本现在带有一个predict允许使用固定和随机效应来生成预测的功能。但是,我还需要能够估计我所做预测的不确定性,这是一个问题,因为predictlme4中不会为预测生成 SE。

我已经尝试过替代方法。第一个是用来simulate生成预测值的分布,然后我可以将其总结为不确定性估计。但是,我发现 的输出与 的输出simulate明显不同predict,无论我如何处理与随机效应相关的 use.u 参数。当我取 1000 次或更多模拟的平均预测值并将其与 的输出进行比较时predict,很明显这两种方法产生了不同的结果。

第二种方法是使用帮助文件中推荐的 bootMer 函数predict。由此我能够获得参数估计的 SE。但是,我不太确定如何将这些转化为预测中的不确定性(即,我如何获得预测值的 SE?)。我错过了一些明显的东西吗?

非常感谢我使用的两种方法的任何帮助/建议,以及我没有考虑过的替代方法的任何建议!

0 投票
1 回答
771 浏览

r - 点问题并将 R 应用于线性判别分析

我有一些编码问题,在线性判别分析中做一些练习。我们正在使用 Iris 数据:

如您所见,我们删除了 iris 的第一列和第二列。我想要做的是使用线性判别分析来引导这些数据,这是我的代码:

这会生成我想要使用的索引。注意B是一些很大的数字,例如1000。现在我想使用apply,但是为什么下面的代码不起作用?

其中 Species、Petal.Length 等是来自 iris 的数据。如果我使用 for 循环,一切正常,但我当然想以这种更优雅的方式实现。

我的第二个问题是关于points. 我还想计算估计的平均值,我通过以下代码完成了

最后的图应该显示三个区域,三个区域的预期平均值。然而,只显示了第一个图。

感谢您的帮助。