问题标签 [statistical-sampling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
411 浏览

python-2.7 - 使用 NUTS 初始化的 PyMC3 贝叶斯推理

我正在尝试使用 ODE 模型实现简单的贝叶斯推理。我想使用 NUTS 算法进行采样,但它给了我一个初始化错误。我对 PyMC3 不太了解,因为我是新手。请看一下并告诉我出了什么问题。

我得到的错误是

任何帮助将非常感激

0 投票
1 回答
350 浏览

python - 使用 R 或 Python 进行分层采样

我有一个包含 400K 观察值和 250 个特征的数据集。我想进行分层抽样。

我提到了很多链接,但它们都是在包括 Target 在内的 1 或 2 个变量示例之后。

任何人都可以帮助我如何使用 R / Python 执行分层抽样。

感谢提前!

0 投票
3 回答
2308 浏览

r - 如何解决错误“观察太少”。使用 ROSE 平衡 R 中的数据时?

我尝试在 R 上使用 ROSE 库来重新平衡我的数据集中的目标变量。这是我的数据集的信息。

  • 我的原始数据集共有 132056 条记录。
  • 目标变量中共有 279 例 (0.21%) 次要类。
  • 目标变量中大类共131777例(99.79%)。

我想对数据集进行欠采样,以使次要类的百分比增加到 5%。

这是我的代码:

但是,运行上面的代码后,我收到以下错误消息。

我尝试使用 ROSE 的其他方法,例如“over”和“both”,但出现相同的错误。

我该如何解决这个问题?

亲切的问候,

0 投票
0 回答
201 浏览

pytorch - 使用带有大 num_samples 的 WeightedRandomSampler 或使用较低的 num_samples 做更多的 epoch 之间有什么区别吗?

我不明白何时进行采样:

每个 epoch 的第一个 mini batch 是否相同?还是根本没有区别?

0 投票
0 回答
98 浏览

hypothesis-test - 如果 A/B 测试的样本量大于总体,你会怎么做?

我有一个包含 7337 名客户的列表(之所以被选中,是因为他们在 2018 年 3 月至 8 月期间只有一次预订)。我们将与他们联系,并试图测试这些活动对他们销售的影响。这个想法是,与他们联系将使他们预订更多,并增加这个基本上不活跃的群体的销售额。

我必须设置一个 A/B 测试,目前卡在样本量计算上。

这是我的示例数据: 数据

第一列是他们的 ID,第二列是该组 1 月份 2 周的总销售额(我花了 2 周,因为该组中的客户很少购买)。

我确定的指标是每位客户的收入(RPC = 总收入/总客户),因此我可以同时考虑订单数量和该组的平均订单价值。

该组的 RPC 为 $149,482.7/7337=$20.4

我希望能够在 80% 的功效和 5% 的显着性水平下检测到该指标至少增加 5%。首先,我计算了效果大小。

数据集的标准偏差 = 153.9 影响大小 = (1.05*20.4-20.4)/153.9 = 0.0066

然后我使用 R 中的 pwr 包来计算样本量。

pwr.t.test(d=0.0066, sig.level=.05, power = .80, type = 'two.sample')

然而,我得到的样本量是 360,371。这大于我的人口规模(7337)。

这是否意味着我无法以足够的功率运行测试?我可以确定在不影响显着性或功效的情况下降低样本量的唯一方法是增加效应量以确定最小增加 50%,这将使我得到 n=3582。

这听起来影响很大,我不确定这种影响是否合理。

这是否意味着我不能在这里运行 A/B 测试来衡量影响?

0 投票
0 回答
55 浏览

r - 有没有办法在不丢弃数据的情况下处理“无法分配大小向量”问题?

与之前关于此的问题不同,此案例与此不同,这就是我要问的原因。我有一个已经清理过的数据集,其中包含 25 个变量的 120 000 个观察值,我应该通过逻辑回归和随机森林对其进行分析。但是,我收到一个错误“无法分配大小为 98 GB 的向量,而我的朋友没有。

摘要说明了大部分内容。我什至尝试将观察数减少到 50 000,并将数据集中的变量数减少到 15(在回归中使用了其中的 5 个),但它失败了。但是,我尝试将缩短数据集的脚本发送给朋友,她可以运行它。这很奇怪,因为我有一个 64 位系统和 8 GB RAM,而她只有 4 GB。所以看来问题出在我身上。

结果应该是一个逻辑模型,我可以在其中查看系数并测量其准确性并进行调整。

0 投票
2 回答
74 浏览

r - 评估结果模拟数据

我正在使用拒绝方法模拟数据,其中的密度函数由X给出f(x)= C * e^(x) for all x in [0,1]。我定义g(x) = 1C是其中的最大值f(x)等于1/(e-1)

我使用以下代码来模拟数据:

然后,我使用histogram将模拟数据与curve原始数据pdf进行比较

但是结果的情节有点奇怪!情节就在这里,所以我正在寻找任何帮助来澄清我的工作中出了什么问题。

0 投票
1 回答
21 浏览

r - (R) 以 0.1 的接受概率找出总体缺陷品的比例

我正在使用以下 R 代码:

生成情节:

在此处输入图像描述

我想找到P(accept)(Y 轴)为 0.1 时的比例。有没有办法在 R 中做到这一点?根据https://cran.r-project.org/web/packages/AcceptanceSampling/AcceptanceSampling.pdf上的文档,我感觉这个包不允许直接计算。

0 投票
1 回答
185 浏览

r - 如何在 R 中实现拒绝抽样?

我有一个基因行数据集,每个基因行都有它们的基因长度,我希望使用拒绝抽样通过基因长度分布从这些基因中取样 - 因为我在这个数据集中有太多基因太小而无法进入进一步分析(但是我不能自己设置一个截止点来删除它们)。我有一个基因长度的基因数据集可供采样,还有另一个基因长度的提议分布,我想使用它来对第一个数据集进行拒绝采样。

我的数据示例如下所示:

我的提案数据集:

我没有任何统计背景,我正在尝试进行拒绝抽样(我的总体目标是获取长度极小基因较少的基因样本以进行进一步分析)。

要进行拒绝抽样,我正在从我在这里找到的教程中尝试这个:

我的问题是它只选择了 25 个基因(我进一步分析的理想采样范围是选择 50-100 个基因),而这 25 个基因中的大多数在采样后仍然很小。在运行此拒绝采样代码之前,我是否需要以X某种方式进行转换?我的实际数据df1是 800 个基因长度呈偏态/β 分布的基因(大多数都非常小)。还是我完全错过了我理解的其他东西?任何指导将不胜感激。

输入数据:

编辑:

我也试过:

但我确定我没有dbeta()正确使用,因为sampled$targetDensity输出全为零 - 有没有办法解决这个问题?我尝试过更改值,dbeta()但没有任何成功。