问题标签 [statistical-sampling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 接受-拒绝 beta 分发 R 代码
我正在使用接受-拒绝方法进行 beta 分布,g(x) = 1, 0 ≤ x ≤ 1。函数为:f(x) = 100x^3(1-x)^2。
我想创建一个算法来从这个密度函数生成数据。
如何在 k = 1000 次重复 (n=1000) 时估计 P(0 ≤ X ≤ 0.8)?我如何在 R 中解决这个问题?
我已经有了:
c# - 这种从 C# 中的多项式采样的简单方法有什么问题?
我想实现一个简单的方法来从 C# 中的多项分布中采样(第一个参数是我们要采样的整数数组,第二个参数是选择每个整数的概率)。
当我在 python 中使用 numpy 执行此操作时,结果是有意义的。
我得到很多 1(概率 62%)、一堆 2、一些 3 等。
但是,当我在 C# 中尝试下面的实现时(非常简单的多项式逆变换采样,仅依赖于统一的随机变量),我得到了非常奇怪的结果。对于所有 1000 个样本,我经常会找到全 1。有时,我会找到所有 3 的 (!!??)。结果永远不会像您期望的那样(以及您从 python 函数中获得的结果 - 尝试自己运行几次)。这真的很可怕,因为我们依赖这些原语。有没有人了解 C# 版本可能有什么问题?
random - 不平衡数据集的采样率
我有一个不平衡的数据集,它有两个类(+1
,-1
)。阳性仅占数据集的 7%。
我想使用决策树进行分类。我尝试将底片下采样为:
- 正片大小相同
- 正片大小的两倍或三倍。
对于所有这些,我得到了几乎相同的精度,但是对于第一个样本(负数与正数大小相同),正数的召回率要好得多。但我觉得我在这里遗漏了一些东西,所以这个采样有什么不好的?
r - 生成n个样本,R中的拒绝采样
拒绝抽样
我正在使用截断正态分布的拒绝抽样,请参阅下面的 r 代码。如何使采样停止在特定的 n?例如 1000 个观察值。即当接受的样本数量达到n(1000)时,我想停止采样。
有什么建议么?任何帮助是极大的赞赏 :)
采样时如何将 X 的长度设置为特定数字?
statistics - 为什么在计算 z 分数时将样本标准差除以 sqrt(样本大小)
我一直在关注可汗学院的视频以了解假设检验,我必须承认,到目前为止我的所有理解都是基于该来源。现在,以下视频讨论 z 分数/假设检验:
现在,我开始怀疑,这完全是关于 z 分数中的分母:
- 对于 z 分数公式,即:z = (x – μ) / σ,当总体的标准偏差 (σ) 已知时,我们直接使用它。但是当它未知时,并且我们使用抽样分布,那么我们有 z = (x – μ) / (σ / √n); 我们用 σ s估计 σ ;其中σ s是样本的标准差,n 是样本大小。
那么 z 分数 = (x – μ) / (σ s / √n)。当 σ s 已知时,为什么要除以 √n ?即使在视频中,假设检验 - Sal 也将样本的标准差除以 √n。当 σ s直接给出时,我们为什么要这样做?
请帮我理解。
- 我尝试将其应用于以下问题,并遇到以下问题:
问题:Yardley 设计了新香水。Yardley 公司声称,一个新香水瓶平均可以使用 300 天。另一家公司从 Yardley 随机抽取 35 支新香水瓶进行测试。采样瓶的平均使用时间为 190 天,标准偏差为 50 天。如果 Yardley 的说法是正确的,随机选择的 35 个瓶子的平均寿命不超过 190 天的概率是多少?
所以,上面的问题,当我执行以下操作时:
z = (190-300)/(50/√35),我们得到 z = -13.05,这不是一个可能的分数,因为 z 分数应该在 +-3 之间。
当我这样做时,z = (190-110)/50,或者更确切地说是 z = (x – μ) / σ,我似乎在这里得到了一个可以接受的答案。
请帮我弄清楚我错过了什么。
python - k样本的scipy Anderson-Darling测试中的数学溢出错误
我想将成对的样本与 Kolmogorov-Smirnov (KS) 和 Anderson-Darling (AD) 测试进行比较。我分别用scipy.stats.ks_2samp
和实现了这个scipy.stats.anderson_ksamp
。我希望相似样本的统计量较低(相同样本为 0),而更多不同样本的统计量较高。
在相同样本和非常不同的样本(没有重叠)的情况下,ks_2samp
提供预期的结果,同时anderson_ksamp
为相同的样本提供负值,更重要的是,对于非常不同的样本会引发错误(可能是由于样本量:200在下面的示例中)。
以下是说明这些发现的代码:
在相同样本上使用 KS 和 AD:
分别返回:
在不同的样本上:
分别返回:
c++ - 通过仅知道级别数来识别一维数据的级别
我有一个传感器,其输出数据由一个属性(单值)组成。序列数据打孔示例如下:
sample: 199 200 205 209 217 224 239 498 573 583 583 590 591 594 703 710 711 717 719 721 836 840 845 849 855 855 856 857 858 858 928 935 936 936 942 943 964 977
您可以从第一个图像输入中看到数据。
数据分为多个级别。级别数是给我的(本例中为 5 个级别)。但是,每个级别的样本数量是未知的,级别之间的距离也是未知的。
我需要排除异常值并定义每个级别的中心(查看第二个图像输出。
红色样本代表异常值,黄色代表水平中心)。有什么算法、数学公式、c++代码可以帮助我实现这个要求吗?
我尝试了 KMeans(本例中 K = 5),但由于随机的初始 K 质心,我得到了不好的结果。大多数时候,一些初始质心共享相同的级别,使该级别成为两个集群,而其他两个级别属于一个集群。如果我通过从每个级别中选择一个质心来手动设置初始质心,我会得到非常好的结果。
random - 对聚合数据集进行采样
输入是一个数据集,其中每一行都包含一个事件,比如点击。成员 ID 是唯一 ID。样本数据:M1,100 M2,100 M3,50 M4,50 目标是对 1% 的点击进行采样,其中总点击数是通过对所有成员 ID 的所有点击求和得出的。如果我希望在样本数据集上采样 1%,我希望应用一种随机采样点击计数并产生 1% 或 3 次点击的技术,例如:M1、1 M2、1 M4、1 或其他组合,其中成员之间的点击总和为 1%。
一种基本方法是分解输入中的所有条目并将其作为数据,然后从中抽取 1%。如果有数百万点击数为 100 的成员,这将非常缓慢/低效。正在寻找不需要数据爆炸的更好解决方案?
r - R函数内的多重采样
我正在尝试制作一个最终将在我的数据集上运行多种机器学习算法的函数。我在下面有我的函数的第一个小部分和一小部分数据样本。
我遇到的问题是将我的数据采样到四个不同的数据帧中,然后将它们应用于给定的函数。在第一个函数上,我正在测试数据运行抛出逻辑回归模型,但在输出上它使用该模型的所有数据,而不仅仅是我想要的数据帧 df 的 1/4。我检查了 <<- 以查看传递的数据类型,它发送的数据集是我正在寻找的数据帧 df 的 1/4。问题为什么将它以正确的方式传递给我的全局环境而不是我的回归函数,我将如何纠正这个问题?
数据:
功能: