问题标签 [subsampling]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

105 问题

0 投票

1 回答

122 浏览

python - 如何在不替换的情况下重新采样，将连续三个视为每个选择的一个单元

目标是从原始总体中抽取 n 个数据点。但是原始人口具有序列相关性（将其视为时间序列数据），我想选择相邻的三个作为每个选择的一个单位。也就是说，每次都要选择相邻的三个数据点。选择必须在没有替代的情况下完成。

它将重复选择，直到样本数据点的数量达到 n。每个选择的数据点都必须是唯一的。（假设人口数据点都是唯一的。）

我怎样才能把它写成代码？我希望代码很快。

这段代码是我的粗略试验，但它没有给出正确的大小，因为可能有重复。

python resampling subsampling

2020-07-02T13:40:45.543

0 投票

1 回答

132 浏览

r - 在 R 中均匀间隔地采样随机行

我有超过 50 年的测量值。我正在尝试对数据进行二次抽样，以查看如果我只在 2 年或 3、4、5 年等而不是全部 50 年中抽样，我会发现什么模式。我编写了一个代码，可以从数据集，但条件是这两个随机年份至少在数据集中分散开（相隔 10 年，或其他什么）。

有没有条件随机抽样代码？

这是我目前正在做的事情。保持这种格式最容易，因为我%>%从这里开始讨论其他内容。

我认为最简单的方法是创建一个函数sample_n_conditional()，我可以直接替换sample_n该map_dfr行。那必须是一个函数，它表示某种“至少相隔 10 年的样本 n 年”。或者甚至取决于样本数量的更动态的东西，因为当我拉更多年时，相隔 10 年将变得不可持续。所以更像是“在系列中按比例合理分布的样本 n 年”。

我考虑将我的模拟总数更改为比我需要的更多，然后过滤掉那些靠得太近的模拟，假设碰巧足够满足我的资格。但这并不理想。

任何想法表示赞赏。

r random dplyr purrr subsampling

2020-07-06T18:44:40.163

0 投票

0 回答

183 浏览

python-3.x - 如何使用 tf.data.Dataset.interleave 从 tf2 中的多个数据集对象中进行子采样？

我尝试使用 tf.data.Dataset.interleave 复制此处发布的解决方案，但不太确定如何将 interleave 方法应用于已创建的数据集对象。这是代码：

我想通过从 ds_0、ds_1 和 ds_2 中同等采样来创建数据集。我应该通过map_func什么？

python-3.x tensorflow-datasets tensorflow2.x subsampling

2020-07-22T14:23:18.283

0 投票

1 回答

75 浏览

r - 循环左连接

我一直在尝试循环左连接（使用 R）。我需要创建一个表，其中的列代表更大表中的样本。新表的每一列都应代表这些样本中的每一个。

如何循环左连接，使每一列对应一个不同的样本？

r loops join left-join subsampling

2020-10-05T23:07:37.793

0 投票

1 回答

70 浏览

java - 如何在 Spark 中对 DataSet 的窗口进行二次采样？

假设我有一个DataSet看起来像这样的：

我想创建一个新的DataSet，其中每个名称有 3 行，其中额外的行（如果有）是从同名的行中采样的（例如，Karen 将有三个相同的行）。

如何在不遍历每个名称的情况下做到这一点？

java apache-spark subsampling

2020-10-18T11:55:21.333

0 投票

1 回答

605 浏览

r - 在K意味着使用R进行聚类后，检索最接近每个聚类质心的100个样本

我试图通过首先在 R 中执行 K-means 聚类然后为每个代表性聚类采样 50-100 个样本以进行下游分类和特征选择来减少输入数据大小。

原始数据集被拆分为 80/20，然后 80% 进入 K 均值训练。我知道输入数据有 2 列标签和 110 列数值变量。从标签栏中，我知道有 7 种不同的药物治疗方法。同时，我测试了肘部方法以找到集群数量的最佳 K，它在 8 左右。所以我选择了 10，以便有更多的数据集群可供下游采样。

现在我已经完成了模型 <- Kmeans() 的运行，输出列表让我有点困惑该怎么做。由于我必须仅缩放数字变量以放入 kmeans 函数中，因此输出集群成员不再具有该处理标签。我可以通过将集群成员附加到原始训练数据表来克服这一点。

那么对于 10 个质心，我如何找出标签是什么？我不能只做

最重要的问题是，我如何找到每个集群的 100 个样本，这些样本与各自的质心最接近？我在 python 中看到过一篇文章，但还没有 R 资源。使用 scikit-learn.k-means 库输出最接近每个聚类中心的 50 个样本任何指针？

r k-means centroid subsampling

2020-11-01T16:14:36.743

0 投票

1 回答

30 浏览

r - 对声音文件进行二次采样的更有效方法？

如果已经问过这个问题，并且我对这个问题的措辞是 R 的新手，请提前道歉。

有什么方法可以让我的代码对声音文件进行二次采样更有效率吗？我有来自 9 个站点的 148 小时的录音，对于每个站点，我每 5 分钟对 12 个 1 分钟片段进行二次采样。我目前这样做的方式有效，但非常耗时。有没有办法让这段代码更有效率？

我目前必须每小时检查一次代码并手动更改小时数，这需要大量时间。我希望我已经正确传达了这一点，非常感谢任何帮助。

r audio subsampling acoustics

2020-11-04T22:00:47.907

0 投票

1 回答

28 浏览

python - 从 df 中按类别抽取随机子样本

我有一个这样的数据框

产生：

（真正的数据框有 >1000 行）

并计算类别产量：

我想绘制一个随机的n行子样本，以便按比例表示每个中间类别。例如，13 个类别中的 3 个（~23%）是“内科”。因此，约 23% 的子样本应具有此类别。如果每个患者有 1 个类别，这不会太难，但不幸的是他们可以有多个（例如，患者 3 甚至有 3 个类别）。我怎样才能做到这一点？

python dataframe subsampling

2020-11-16T09:56:26.107

0 投票

0 回答

52 浏览

c++ - 对大型犰狳矩阵或向量进行二次采样

我一直在浏览Armadillo 文档和示例，但似乎没有真正有效的方法来对大向量或矩阵进行二次采样（或重新采样），这样如果你最初有 N 个元素，你最终会得到 N / k 个元素. 有几种方法可以洗牌和转移，但仅此而已。

所以我只是按顺序循环遍历所有元素，但除了对可用内核进行矢量化之外，肯定还有更好的方法吗？

如果您对此有任何改进建议，将不胜感激。此外，最好这样做“就地”以节省内存。

c++multithreading armadillo subsampling

2021-01-17T20:58:37.653

0 投票

0 回答

72 浏览

r - 从 R 中的数据框创建子样本

我有五个数据框，我想在其中运行回归：

df1：股票收益
df2：住房回报
df3：实际通货膨胀率
df4：预期通货膨胀率
df5：意外通货膨胀率

数据框示例

数据框示例

每个数据帧的格式都和上面一样，只是里面的数据不同。

我想对预期和意外通货膨胀进行住房和股票的单独回归，如下所示：

df1[i] ~ df4[i] + df5[i]

df2[i] ~ df4[i] + df5[i]

我想比较实际通货膨胀（包含在 df3 中）高于中值的时期与实际通货膨胀低于中值的时期的回归结果。为此，我需要根据 df3 中每列的值从每个数据帧创建两个子样本。由于我对R没有深入的了解，所以我不知道该怎么做。有可能做到吗？如何？还是为每个国家/地区创建 13 个不同的数据框更好？

先感谢您！

r regression subsampling

2021-04-03T09:58:51.387

1 2 3 4 5 6 7 8 9 10