问题标签 [subsampling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何在不替换的情况下重新采样,将连续三个视为每个选择的一个单元
目标是从原始总体中抽取 n 个数据点。但是原始人口具有序列相关性(将其视为时间序列数据),我想选择相邻的三个作为每个选择的一个单位。也就是说,每次都要选择相邻的三个数据点。选择必须在没有替代的情况下完成。
它将重复选择,直到样本数据点的数量达到 n。每个选择的数据点都必须是唯一的。(假设人口数据点都是唯一的。)
我怎样才能把它写成代码?我希望代码很快。
这段代码是我的粗略试验,但它没有给出正确的大小,因为可能有重复。
r - 在 R 中均匀间隔地采样随机行
我有超过 50 年的测量值。我正在尝试对数据进行二次抽样,以查看如果我只在 2 年或 3、4、5 年等而不是全部 50 年中抽样,我会发现什么模式。我编写了一个代码,可以从数据集,但条件是这两个随机年份至少在数据集中分散开(相隔 10 年,或其他什么)。
有没有条件随机抽样代码?
这是我目前正在做的事情。保持这种格式最容易,因为我%>%
从这里开始讨论其他内容。
我认为最简单的方法是创建一个函数sample_n_conditional()
,我可以直接替换sample_n
该map_dfr
行。那必须是一个函数,它表示某种“至少相隔 10 年的样本 n 年”。或者甚至取决于样本数量的更动态的东西,因为当我拉更多年时,相隔 10 年将变得不可持续。所以更像是“在系列中按比例合理分布的样本 n 年”。
我考虑将我的模拟总数更改为比我需要的更多,然后过滤掉那些靠得太近的模拟,假设碰巧足够满足我的资格。但这并不理想。
任何想法表示赞赏。
python-3.x - 如何使用 tf.data.Dataset.interleave 从 tf2 中的多个数据集对象中进行子采样?
我尝试使用 tf.data.Dataset.interleave 复制此处发布的解决方案,但不太确定如何将 interleave 方法应用于已创建的数据集对象。这是代码:
我想通过从 ds_0、ds_1 和 ds_2 中同等采样来创建数据集。我应该通过map_func
什么?
r - 循环左连接
我一直在尝试循环左连接(使用 R)。我需要创建一个表,其中的列代表更大表中的样本。新表的每一列都应代表这些样本中的每一个。
如何循环左连接,使每一列对应一个不同的样本?
java - 如何在 Spark 中对 DataSet 的窗口进行二次采样?
假设我有一个DataSet
看起来像这样的:
我想创建一个新的DataSet
,其中每个名称有 3 行,其中额外的行(如果有)是从同名的行中采样的(例如,Karen 将有三个相同的行)。
如何在不遍历每个名称的情况下做到这一点?
r - 在K意味着使用R进行聚类后,检索最接近每个聚类质心的100个样本
我试图通过首先在 R 中执行 K-means 聚类然后为每个代表性聚类采样 50-100 个样本以进行下游分类和特征选择来减少输入数据大小。
原始数据集被拆分为 80/20,然后 80% 进入 K 均值训练。我知道输入数据有 2 列标签和 110 列数值变量。从标签栏中,我知道有 7 种不同的药物治疗方法。同时,我测试了肘部方法以找到集群数量的最佳 K,它在 8 左右。所以我选择了 10,以便有更多的数据集群可供下游采样。
现在我已经完成了模型 <- Kmeans() 的运行,输出列表让我有点困惑该怎么做。由于我必须仅缩放数字变量以放入 kmeans 函数中,因此输出集群成员不再具有该处理标签。我可以通过将集群成员附加到原始训练数据表来克服这一点。
那么对于 10 个质心,我如何找出标签是什么?我不能只做
最重要的问题是,我如何找到每个集群的 100 个样本,这些样本与各自的质心最接近?我在 python 中看到过一篇文章,但还没有 R 资源。 使用 scikit-learn.k-means 库输出最接近每个聚类中心的 50 个样本 任何指针?
r - 对声音文件进行二次采样的更有效方法?
如果已经问过这个问题,并且我对这个问题的措辞是 R 的新手,请提前道歉。
有什么方法可以让我的代码对声音文件进行二次采样更有效率吗?我有来自 9 个站点的 148 小时的录音,对于每个站点,我每 5 分钟对 12 个 1 分钟片段进行二次采样。我目前这样做的方式有效,但非常耗时。有没有办法让这段代码更有效率?
我目前必须每小时检查一次代码并手动更改小时数,这需要大量时间。我希望我已经正确传达了这一点,非常感谢任何帮助。
python - 从 df 中按类别抽取随机子样本
我有一个这样的数据框
产生:
(真正的数据框有 >1000 行)
并计算类别产量:
我想绘制一个随机的n
行子样本,以便按比例表示每个中间类别。例如,13 个类别中的 3 个(~23%)是“内科”。因此,约 23% 的子样本应具有此类别。如果每个患者有 1 个类别,这不会太难,但不幸的是他们可以有多个(例如,患者 3 甚至有 3 个类别)。我怎样才能做到这一点?
c++ - 对大型犰狳矩阵或向量进行二次采样
我一直在浏览Armadillo 文档和示例,但似乎没有真正有效的方法来对大向量或矩阵进行二次采样(或重新采样),这样如果你最初有 N 个元素,你最终会得到 N / k 个元素. 有几种方法可以洗牌和转移,但仅此而已。
所以我只是按顺序循环遍历所有元素,但除了对可用内核进行矢量化之外,肯定还有更好的方法吗?
如果您对此有任何改进建议,将不胜感激。此外,最好这样做“就地”以节省内存。
r - 从 R 中的数据框创建子样本
我有五个数据框,我想在其中运行回归:
- df1:股票收益
- df2:住房回报
- df3:实际通货膨胀率
- df4:预期通货膨胀率
- df5:意外通货膨胀率
数据框示例
每个数据帧的格式都和上面一样,只是里面的数据不同。
我想对预期和意外通货膨胀进行住房和股票的单独回归,如下所示:
df1[i] ~ df4[i] + df5[i]
df2[i] ~ df4[i] + df5[i]
我想比较实际通货膨胀(包含在 df3 中)高于中值的时期与实际通货膨胀低于中值的时期的回归结果。为此,我需要根据 df3 中每列的值从每个数据帧创建两个子样本。由于我对R没有深入的了解,所以我不知道该怎么做。有可能做到吗?如何?还是为每个国家/地区创建 13 个不同的数据框更好?
先感谢您!