问题标签 [statistical-sampling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 PyMC3 查找数据集的狄利克雷先验
如何使用 找到狄利克雷先验pymc3
?
我尝试了以下方法:
但它抛出了一个ValueError
:
已编辑
zipfy
应该是参数向量。
我试过这个:
[出去]:
我期待 dirichlet 先验(即参数数组)的大小为 1,但它的大小为 100。这是预期的行为吗?应该如何解释的输出trace['zipfy']
?啊,痕迹是从的步骤pm.sample(100)
?先验在model
对象内部?
因此,假设给定一个离散值,5
我如何找到我刚刚从采样器中学到的狄利克雷先验?它是在model
对象内部还是zipfy
对象内部?
r - 对矩阵上的最大值进行采样,不包括主对角线上的值
我有一个矩阵 X,其最大值沿主对角线。首先,要对第 i 行进行采样,然后沿第 i 行选取最大值,不包括主对角线值,即 max != X[i,i]。
下面的代码通常会产生结果,但经常会出错:
Error in if (MAX < l[k]) { : missing value where TRUE/FALSE needed
sas - 在 SAS 中创建具有已知层的分层样本
我有一个具有某些特征的目标人群,我被要求根据这些特征选择适当的控制。我正在尝试使用 SAS 基础进行分层样本,但我需要能够从我的目标定义我的 4 starta %s 并将这些应用于我的样本。有什么办法可以做到吗?谢谢!
machine-learning - 如何从 Weka 的数据集中删除百分比但保持类平衡?
我有一个数据集,其中 50% 的实例来自 A 类,50% 的实例来自 B 类。我想将我的数据集拆分为训练集和测试集。我知道 RemovePercentage 过滤器存在,但它不关心类平衡。如何从我的数据集中删除 35%,但仍然在训练集中保持 50/50 的类分布?
python - 使用 sklearn 进行音乐流派分类:如何准确评估不同的模型
我正在做一个项目,对来自 5 种不同类型(摇滚、电子、说唱、乡村、爵士)的 30 秒音频样本进行分类。我的数据集包含 600 首歌曲,每个流派正好 120 首。特征是每首歌曲的 13 个 mfcc 的一维数组,标签是流派。本质上,我对 30 秒样本的每一帧取每组 13 个 mfcc 的平均值。这导致每首歌曲有 13 个 mfcc。然后我得到整个数据集,并使用 sklearn 的缩放功能。
我的目标是比较 svm、knearest 和朴素贝叶斯分类器(使用 sklearn 工具集)。我已经进行了一些测试,但我注意到结果因我是否进行随机抽样/分层抽样而异。
我在 sklearn 中执行以下功能来获取训练和测试集:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=0, stratify=y)
它具有参数“随机状态”和“分层”。当“随机状态”被省略时,它从整个数据集中随机采样;当设置为 0 时,保证训练集和测试集每次都相同。
我的问题是,我如何适当地比较不同的分类器。我假设我应该在训练和测试每个分类器之前对这个函数进行相同的调用。我怀疑我应该对每个分类器进行完全相同的拆分,所以它不应该是随机抽样,也应该是分层的。
还是我应该分层(和随机抽样)?
oracle - 使用 sas 中的 proc sql 从仓库(oracle 引擎)中提取数据时的简单随机抽样
我需要从数据仓库中的不同表中提取大量数据,例如 600-700 个变量……现在原始形式的数据集将轻松触及 150 gigs - 79 MM 行,出于分析目的,我只需要一百万行...如何通过对行进行简单的随机抽样,直接从仓库中使用 proc sql 提取数据。
下面的代码不起作用,因为 oracle 不支持 ranuni
你建议我怎么做
statistics - 从非均匀数据创建均匀分布的示例
给定一个具有非均匀分布(高峰值)的数据集,我想重新采样以创建一个具有近似均匀分布的新数据集。我的做法:
- 将数据划分为 bin。
- 目标 bin 级别 = 所有 bin 中每个 bin 的最小样本数。
- 随机删除样本,直到每个 bin 计数 = 目标 bin 级别。
有没有更好的技术?
r - 纵向数据中不替换的随机抽样
我的数据是纵向的。
我们的最终目标是在每次访问中选出 10% 来运行测试。我尝试使用 proc SURVEYSELECT 来执行 SRS 而无需替换并使用“VISIT”作为分层。但是最终的样本会有重复的 ID。例如,可以在 VISIT=1 和 VISIT=2 中都选择 ID=001。
有没有办法使用 SURVEYSELECT 或其他程序(R 也可以)来做到这一点?非常感谢。
r - 将一条线拟合到小的倍数
我想拟合一条穿过共享图上采样分布平均值的线。这段代码创建了一个与我正在使用的数据集相似的数据集。它创建一个抽样分布并将分布绘制在相同的图表上。然后,我画一条穿过分布平均值的线。但是,我想要一条适合所有分布均值的线。我在想像这张图在这里找到的东西。
这个问题是我的问题here的后续。如您所见,我创建了一个变通方法来绘制所有小倍数。但是,我仍然在拟合线方面遇到问题。
感谢您考虑这个问题。
sas - SAS - 未找到 proc cusum
我有以下 SAS 代码:
当我运行代码时,我得到了找不到 proc cusum 的错误。为什么会这样?我对 SAS 文档进行了三次检查,发现我的代码没有任何问题。对此的一些见解将不胜感激。