“subsampling”的相关标签问题

0 投票

2 回答

138 浏览

r - 每组随机采样，制作一个新的数据框，重复直到组内的所有实体都被采样

我想为每个区域随机抽取一个站点，创建一个新的数据框，然后重复这些过程，直到对所有站点进行采样。因此，每个数据框不会包含来自同一区域的相同站点。

我的真实数据框中的几个区域比其他区域有更多的站点（C 区有 4 个站点）。我想删除这些行（也许我应该在制作多个数据框之前这样做）。

这是一个示例数据框（真实的数据框有 >100 个区域和每个区域 >10 个站点）：

重复以下代码三次会生成包含给定区域的相同站点的数据帧（第二个和第三个表都具有区域 A 的站点 X2）。

您能否帮我创建多个数据框，以便所有数据框都包含所有区域，但每个数据框都包含唯一的 Region-Site 组合。

编辑：这是预期的输出。为了产生这些，在第一次采样中，从每个区域中随机抽取一个站点（行）并制作一个数据框。在第二次抽样中，重复相同的过程，但无法绘制给定区域的相同站点。我想要的是包含 Region-Site 的独特组合的独立数据框。

r subsampling

Zuozuomu

2017-03-10T02:56:07.303

0 投票

2 回答

620 浏览

python - 对视频进行二次采样以保存每 N 帧

我有数千个 30sec/20fps/.avi 视频（所以每个视频总共 600 帧）。我需要自动对这些视频进行二次采样，以保存每 100 帧（每 5 秒）。任何图片格式都可以。

在 Matlab (R2015b) 或 Python + 库中是否有一种简单的方法可以做到这一点？

2017-03-30T16:11:27.880

0 投票

2 回答

1021 浏览

macos - 视频样本帧

我正在寻找一种在 OS X/Python3.5 中获取.avi视频文件的方法，每 100 帧进行二次采样，并将这些帧组合成自己的视频。

在我的特殊情况下，视频在 20fps 时为 30 秒，因此新视频只有 6 帧长（我想为多个视频执行此操作，然后稍后将它们组合在一起）。

我安装了opencv，但找不到有关如何执行此操作的文档。如果更容易，我也可以使用不同的库。

macos opencv video python-3.5 subsampling

2017-04-08T04:58:35.380

0 投票

0 回答

49 浏览

r - 创建特定的子样本

因此，对于我的分析，我需要在我的样本中创建 4 个子样本：

我想比较选民的投票率

1) 家庭中有 0 个其他选民的选民
2) 家庭中有 1 个其他选民的选民
3) 家庭中有 2 个其他选民的选民
4) 家庭中有 3 个以上其他选民的选民

我有7个变量：
1）家庭规模（vn437）
2）HH中第二人的年龄（vn438a）
3）HH中第三人的年龄（vn438b）
等等，直到HH中第六人的年龄

在我的逻辑中，我需要为每个组创建 4 个子样本：

第一组（HH 中的 0 个其他选民）将是满足以下条件的观察：

依此类推，直到我完成 'd$vn438e < 18'

我是 R 的超级菜鸟，我不知道该怎么做。
我将如何创建这些组？我真的很绝望，我一直在寻找几个小时无济于事！

正如 Richard Telford 所建议的，这里是 'dput(head(d))命令的输出：

这vn438b = "1000"是 NA 值，但如果我删除它们，我会丢失其他观察结果，所以我没有清理 HH 年龄变量中的第 N 个人。

这也是我希望我的结果最终看起来的样子

编辑

设法自己解决了。对于任何有兴趣的人，这是我的代码：

r subsampling

2017-04-22T16:54:55.123

0 投票

1 回答

1166 浏览

android - 将图像下载到二次采样比例图像视图

我正在使用二次采样比例图像视图来显示大图像（大约 3000x3000）。

我也使用毕加索解码器从互联网下载图像。问题是，当我尝试从缓存中获取图像时，它不起作用，因为毕加索无法下载它。解码器来自官方页面。

我有一个想法，先下载图像并将其保存到文件中，然后再显示。问题是，然后我得到 som skia 异常和其他东西，基本上，这似乎不是正确的方法。

有任何想法吗？

android file picasso subsampling

2017-05-03T13:02:23.150

0 投票

1 回答

62 浏览

r - R - 如何使用新的随机数和绘图删除重复数据框操作 100 倍

我是 R 的新用户，正在尝试创建数据框的多个子样本。我将数据分配给 4 个层（STRATUM = 1、2、3、4），并且希望在每个层中随机保留指定数量的行。为此，我导入数据，按分层值排序，然后为每一行分配一个随机数。我想保留我原来的随机数分配，因为我需要在以后的分析中再次使用它们，所以我用这些值保存了一个 .csv。接下来，我按层对数据进行子集化，然后指定要在每个层中保留的记录数。最后，我重新加入数据并保存为新的 .csv。该代码有效，但是，我想重复此过程 100 次。在每种情况下，我都想保存分配了随机数的 .csv，以及随机选择的图的最终 .csv。我不确定如何让这段代码重复 100 次，以及如何为每次迭代分配一个唯一的文件名。任何帮助将非常感激。

r dataframe random repeat subsampling

2017-06-01T21:15:30.273

0 投票

2 回答

3024 浏览

python - 根据加权概率采样 RDD 元素 [Spark]

在 PySpark 中，我有一个由 (key;value) 对组成的 RDD，其中key是顺序整数，value是浮点数。

我想从这个 RDD 中准确地采样一个元素，概率与value成正比。

以一种简单的方式，这个任务可以完成如下：

正如您可能知道的那样，我关心的是collect()在内存中加载整个元组列表的操作，这可能非常昂贵。我知道takeSample()，当应该统一提取元素时，这很好，但是如果应该根据加权概率提取元素会发生什么？

谢谢！

python pyspark rdd subsampling

2017-06-04T10:17:13.177

0 投票

1 回答

275 浏览

android - subsamplingscaleimageview 清洁引脚图像

我想在更改背景图像时从我的 PinView 中删除所有图钉。我通过将引脚插入坐标 ArrayList 和引脚图像来添加引脚，并且一切正常。

我能怎么做？

android imageview scale subsampling

2017-08-02T21:08:24.663

0 投票

1 回答

1587 浏览

statistics - 从非均匀数据创建均匀分布的示例

给定一个具有非均匀分布（高峰值）的数据集，我想重新采样以创建一个具有近似均匀分布的新数据集。我的做法：

将数据划分为 bin。
目标 bin 级别 = 所有 bin 中每个 bin 的最小样本数。
随机删除样本，直到每个 bin 计数 = 目标 bin 级别。

有没有更好的技术？

statistics downsampling subsampling statistical-sampling

2017-08-29T00:21:47.480

0 投票

1 回答

1336 浏览

sampling - 负采样和二次采样

我经常听到与 word2vec 一起使用的术语“负采样”和“子采样”。

在我试图弄乱 word2vec 之前，我试图回顾一下引用词嵌入的论文，并从头开始。纸上的踪迹把我带到了这里：

https://gul.gu.se/public/pp/public_courses/course77642/published/1497871737091/resourceId/37659332/content/UploadedResources/lecture10-slides-word2vec_sungmin_VT17.pdf （谷歌，“向量空间中单词表示的有效估计“如果您不信任链接。）

并指出：

（我熟悉所有要点减去第一个）

我在负采样和二次采样方面发现的唯一内容已包含在有关 word2vec 的文章中，而这正是我要避免的。

如果有人能解释这些术语或指出我正确的方向，将不胜感激:)。

编辑：它本身的子采样标签导致了这个定义：

“二次抽样是一种类似于 bootstrap 的重新抽样过程，其中通过替换绘制的观察结果少于所有观测值（与教科书 bootstrap 方法中使用的原始样本量相比）。要从现有数据中创建样本，请考虑“抽样”而是标记。” ---这方面的具体例子会很棒。

sampling subsampling

user2738183

2017-10-05T16:37:38.310

问题标签 [subsampling]

Reference