问题标签 [confidence-interval]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
16031 浏览

r - Adding confidence intervals to a qq plot?

Is there a way to add confidence intervals to a qqplot?

I have a dataset of gene expression values, which I've visualized using PCA:

pca1 = prcomp(data, scale. = TRUE)

I'm now looking for outliers by checking the distribution of the data against the normal distribution through:

qqnorm(pca1$x,pch = 20, col = c(rep("red", 73), rep("blue", 33)))

qqline(pca1$x)

This is my data:

data = [2.48 104 4.25 219 0.682 0.302 1.09 0.586 90.7 344 13.8 1.17 305 2.8 79.7 3.18 109 0.932 562 0.958 1.87 0.59 114 391 13.5 1.41 208 2.37 166 3.42]

I would now like to plot 95% confidence intervals to check which data points lie outside. Any tips on how to do this?

0 投票
3 回答
62486 浏览

python - 获取 t 统计量的 Python 函数

我正在寻找一个 Python 函数(或者如果没有,则编写我自己的函数)来获取 t 统计量,以便在置信区间计算中使用。

我找到了可以为各种概率/自由度提供答案的表格,比如这个,但我希望能够为任何给定的概率计算这个。对于任何不熟悉此自由度的人来说,样本中的数据点数 (n) -1,顶部列标题的数字是概率 (p),例如,如果使用 2 尾显着性水平 0.05,则您正在查找 t-score 以在计算中使用 95% 的置信度,即如果您重复 n 次测试,结果将落在平均值 +/- 置信区间内。

我已经研究过在 scipy.stats 中使用各种函数,但我所看到的似乎都没有允许我上面描述的简单输入。

Excel 对此有一个简单的实现,例如获取 1000 样本的 t 分数,我需要有 95% 的信心我会使用:=TINV(0.05,999)并且得到分数 ~1.96

这是迄今为止我用来实现置信区间的代码,如您所见,我目前正在使用一种非常粗略的方法来获取 t 分数(只允许 perc_conf 的一些值并警告它不准确样本 < 1000):

这是对上述代码的示例调用:

输出是:

我有 95% 的把握认为 1000 次掷硬币的结果将在 500 次的 +/- 3.1% 范围内,即在 469 到 531 次正面之间(假设每次掷硬币的概率为 0.5)。

我还研究了计算一个范围的t 分布,然后返回得到最接近所需概率的 t 分数,但我在实现公式时遇到了问题。让我知道这是否相关并且您想查看代码,但我假设不是因为可能有更简单的方法。

提前致谢。

0 投票
0 回答
93 浏览

matlab - Errorbars for unknown distributions

I recently made a graph where I show the error bars for a certain number of "experiment". In another way, in my algorithm I'm minimizing the objective function so I would expect that increasing the sampling I'll get lower value of the objective function.

As you can see in the graph, the second value from the left, 2.5 on the x-axis, contain only 2.5% of the configurations, so we wouldn't expect it to perform as well as if we used 100% of the configurations.

I think that this is related to the asymmetry of the distributions. Is there any approach that can fix this problem - aka a method to compute CI for asymmetric unknown distributions?

enter image description here

This example should be useful to make this graph understandable!

%%%%%%%%%%%%%%%%%%%% EDIT %%%%%%%%%%%%%%%%%%%%%

Example: n=1000, i=100

  1. Step 1. Analyze all the 1000 configurations and compute the minimum of z_j. Store it and replicate for i. Then compute mu and sigma of those z_i
  2. Step 2. Analyze 50% of the initial 1000 configuration and compute the minimum of z_j. Store it and replicate for i. Then compute mu and sigma of those z_i
  3. Step 3. Analyze 10% of the initial 1000
  4. Step 4. Analyze 5% of the initial 1000
  5. Step 5. Analyze 2.5% of the initial 1000

So we will have mu_100, mu_50, mu_10, mu_5, mu_2.5 and mu_1 and sigma_100, sigma_50,...

Now I'm able to make those error bars like mu_100 + - 2 * sigma_100....

0 投票
1 回答
2069 浏览

matlab - Bootstrap 和非对称 CI

我正在尝试为一组随机分布且向右偏斜的数据创建置信区间。冲浪时,我发现了一种非常粗鲁的方法,即对上限 CL 使用 97.5% 的百分位数(我的数据),为你的下限 CL 使用 2.5% 的百分位数。不幸的是,我需要一个更复杂的方法!

然后我发现了bootstrap,确切地说是 MATLAB bootci 函数,但我很难理解如何正确使用它。

假设这M是包含我的数据(19x100)的矩阵,假设:

如何使用 bootci为向量的每一行计算不对称CI?Mean

注意:之前,我以这种非常错误的方式计算 CI:,真Mean +/- 2 * StdDev丢脸!

0 投票
0 回答
1075 浏览

c# - 引导置信区间 - C++

我知道如何在 R 和 Matlab 中计算 CI,但是对于一个新的 webapp,我想使用一些 c++ 代码或 c#,以便更轻松地实现。

一个非常简单的方法是使用第 5 个和第 95 个分位数作为置信区间界限。分位数计算的代码示例如下: http ://cplusplus.happycodings.com/Beginners_Lab_Assignments/code52.html

我的问题是:您是否有一些 c++ 或 c# 代码用于使用 BCa 计算 CI?

0 投票
0 回答
2118 浏览

r - 引导错误: if (const(t, min(1e-08, mean(t, na.rm = TRUE)/1e 06))) 中的错误

使用包计算引导置信区间时收到以下错误消息"boot"

仅当我想计算特定变量的国家/地区的 spearman 相关系数的引导置信区间时才会出现此错误,因此不容易重现。对于许多变量,代码运行良好,但对于这个特定的变量,我得到了上述错误消息。到目前为止,这个特定的变量并没有在其他任何地方给我带来任何麻烦,这让我怀疑它与这个变量有关。任何人都可以给我一个关于上述错误消息可能暗示什么的提示吗?

0 投票
1 回答
886 浏览

confidence-interval - 根据引导的 95% 置信区间之间的差异计算 p 值

我已经对来自不同三组的一些数据进行了自举模型拟合,使用 2.5 和 97.5 百分位数来生成 95% 的置信区间。

我知道如果 95% 的置信区间不重叠,那么至少 p<0.05 的值之间存在显着差异。我想计算以下组之间成对比较的确切 p 值:

任何帮助将不胜感激!

0 投票
1 回答
10378 浏览

r - Dotplot with error bars, two series, light jitter

I have a collection of data over several studies. For each study I am interested about the mean of a variable by gender, and if this significantly differs. For each study I have the mean and 95% confidence intervals for both males and females.

What I would like to do is something similar to this: enter image description here

I have used several flavours of dotplots (dotplot, dotplot2, Dotplot) but did not quite get there.

Using Dotplot from Hmisc I managed to have one series and its errorbars, but I am at a loss on how to adding the second series.

I used Dotplot and got the vertical ending of the error bars following advice given here.

Here is a working example of the code I am using

This plots three columns of data, the average for males (avgm), and the lower and upper bound of the 95% confidence interval (lowerm and upperm). I have other three series, for the same studies, that do the same job for the female subjects (avgf, lowerf, upperf).

The results I have look like this:

enter image description here

What is missing, in a nutshell:

  1. adding a second series (avgf) with means and confidence intervals defined on three other variables for the same studies

  2. adding some vertical jitter so that they are not one on top of the other but the reader can see both even when they overlap.

0 投票
0 回答
1002 浏览

r - 马氏距离的置信区间

谁能给出一个关于如何计算马氏距离(MD)的置信区间的工作示例?我正在使用 R,这是我使用的示例数据集。我对计算这两个矩阵之间的 MD 很感兴趣。

在开始置信区间之前,我使用两种方法计算 MD,手动方法和使用函数,但我得到不同的结果。

这是使用函数的方法

如果有人对此有任何见解,将不胜感激:-)

0 投票
1 回答
4548 浏览

r - r中的GLM预测

我将数据集溢出到训练和测试中,如下所示:

sb 是原始数据集的名称,所以是 50/50 train and test。

然后我使用训练集安装了一个 glm。

现在我想使用这个 glm 进行预测,比如接下来的 10 个观察结果。

我无法在 predict() 中指定新数据,

我试过了:

这将给出与训练集中样本数相等的预测数。

最后,如何用置信区间绘制这些预测?

感谢您的帮助