问题标签 [empirical-distribution]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1225 浏览

matlab - 从通过 bootstrap 方法获得的经验分布计算置信区间

我已经使用 bootstrap 方法计算了样本均值的经验分布,但现在我还需要使用我找到的经验分布来计算总体均值的置信区间。

鉴于我的状态,有没有办法在 Matlab 中自动完成?如果不是,您将如何找到总体均值的 95% 置信区间?

0 投票
1 回答
917 浏览

r - 在 R/Fortran 中高效计算二元经验 cdf

给定一个 n*2 数据矩阵 X 我想计算每个观察的二元经验 cdf,即对于 1:n 中的每个 i,返回第一个元素不大于 X[i,1] 和第二个的观察百分比元素不大于 X[i,2]。

由于涉及嵌套搜索,即使在将其移植到 Fortran 之后,它在 n ~ 100k 时也会变得非常慢。有谁知道是否有更好的方法来处理这样的样本大小?

编辑:我相信这个问题(就复杂性而言)类似于找到 Kendall 的 tau,它的顺序为 O(n^2)。在这种情况下,Knight (1966) 有一个算法可以将其减少到 O(n log(n))。只是想知道是否有任何 O(n*log(n)) 算法可以找到已经存在的二元 ecdf。

编辑 2:这是我在 Fortran 中的代码,根据要求。这在 R 中以通常的方式调用,因此这里省略了 R 代码。该代码适用于任意维度,但对于我正在做的特定事情,一个双变量就足够了。

0 投票
2 回答
2872 浏览

r - R中的分布经验

我有一个观察向量,想用 R 获得每个观察的经验 p 值。我不知道基本分布,我目前所做的只是

但是,这并没有真正给我一个 p 值。如何凭经验获得 p 值?

0 投票
0 回答
86 浏览

distribution - 预测经验概率分布偏移

我正在研究为在一天中的特定时间到达公共汽车站的乘客创建一个模拟。我通过从创建的概率分布函数中绘制来做到这一点。根据过去 2 个月的公交车票销售测量结果,我得出以下 pdf: 在特定站点停靠的乘客的pdf

我想预测的是,如果这个站点的乘客人数平均增加 10%,会发生什么。我的第一个想法是在数据中出现的每一个没有乘客的情况下增加 10%,但可能发生的情况是,在极端情况下,公交车站的乘客可能超过 25 人。

我的另一种选择是尝试将现有分布拟合到数据中,看看会发生什么,但我认为这并不能很好地代表我的数据。

您认为解决此问题的最佳方法是什么,以便我可以准确分布新情况?

0 投票
1 回答
68 浏览

r - 高效的经验分布计算

考虑根据经验估计 和中的条件分布离散XY

两个变量都已映射到整数集,使得

我有一个观察数据框obs,例如obs$x[t]obs$y[t]是我的观察值XY事件值t

那么我的问题是,转换为包含经验分布obs的矩阵的最有效方法是什么F

当然,我可以使用双 for 循环i in (1:N_X)j in (1:N_Y)但我正在寻找最有效的方法。

0 投票
1 回答
74 浏览

r - 确定经验分布的跳跃

假设我们有一个随机抽样分布,我们可以计算并绘制相关的 ecdf,如下所示:

现在在这种情况下,经验分布中有跳跃(由意图造成)。我所说的跳跃是指它增加了很多,比方说比以前增加了 100% 以上。这发生在位置 7,500 的示例中。我的问题是:我怎样才能最有效地找到这些“跳跃”指数?

0 投票
1 回答
506 浏览

r - MASS 包的“fitdistr”:处理操纵的随机数据时出错

背景:

下面我使用 R 生成了一些随机的beta数据,并稍微操纵了数据的形状以达到我在代码中所说的Final。我在我的代码中直方图Final” 。

问题:

我想知道为什么在尝试使用 MASS 包的“ fitdistr ”函数将“beta”分布拟合到Final数据时,我收到以下错误(任何建议如何避免此错误)?

Error in stats::optim(x = c(0.461379379270288, 0.0694261016478062, 0.76934266883081, : initial value in 'vmmin' is not finite

这是我的 R 代码:

0 投票
0 回答
59 浏览

r - R:经验分布的期望值差异 - 函数形式未知

给定一个生成的两个经验分布

我试图找到每个分布的期望值,然后取这两个期望值之间的差异。

我发现的大多数问题包括了解函数形式或在 Matlab/Python 中。例如,

如何有效地计算二项式累积分布函数? https://stats.stackexchange.com/questions/105509/integrating-an-empirical-cdf

Numpy中的经验分布函数

假设此数据是从未知的经验分布生成的:

df <- data.frame(x1=rnorm(1000), x2=rnorm(1000,2,1))

除了随机抽样并取每次迭代的平均值(即中心极限定理),我如何找到每个分布的期望值?

0 投票
1 回答
150 浏览

random - 生成具有所需均值和标准的经验/用户定义分布

我根据一年的实际需求数据生成了一个需求分布。这种分布是非正态分布或类似于任何理论分布。我将这种经验需求分布用于模拟研究。

我想以当前的经验分布模式/形状为基础,生成四个额外的分布。

这样做的主要目的是研究需求量和需求变化的变化如何影响模拟系统。创建这样的分布(上面的dist1-4)在统计上是否可行,或者我必须更改为正态分布?

0 投票
1 回答
118 浏览

r - R - 来自数据集的自定义概率分布的随机绘图

我有一个 R 数据框my_measurements(它是一个更大的 10k+ 行数据框的子样本),如下所示:

这是dput(my_measurements)输出:

wheremeasurement_id只是每个测量的唯一标识符,并且value是测量本身(恰好在 0 和 1 之间,但并不意味着概率含义,在其他情况下可以是任何数字)。

我制作了这样的 sggplot()的密度分布:value

看起来像这样:

在此处输入图像描述

如您所见,values 的范围从 0 到 1,但其中很多都接近 1。

我的问题是:如何使用图中的曲线作为概率密度函数(我希望我使用正确的术语,如果不是请纠正我!)从中抽取随机样本???

理想情况下,我想创建一个函数,它给我一个介于 0 和 1 之间的随机数,其中概率是该曲线的函数。在一个可能的实施例中,该函数将采用两个参数:一个是一个向量,在这种情况下,包含value来自 的所有 s my_measurements;第二个是要选择的随机数。返回值将是从该分布中提取的数字的向量。

因此,当我对数据集运行此函数时my_measurements,它很有可能返回接近 1 的数字,而返回 0.25(曲线中的最低点)的可能性很小。

希望这是有道理的,非常感谢您的帮助。