问题标签 [subsampling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
138 浏览

r - 每组随机采样,制作一个新的数据框,重复直到组内的所有实体都被采样

我想为每个区域随机抽取一个站点,创建一个新的数据框,然后重复这些过程,直到对所有站点进行采样。因此,每个数据框不会包含来自同一区域的相同站点。

我的真实数据框中的几个区域比其他区域有更多的站点(C 区有 4 个站点)。我想删除这些行(也许我应该在制作多个数据框之前这样做)。

这是一个示例数据框(真实的数据框有 >100 个区域和每个区域 >10 个站点):

重复以下代码三次会生成包含给定区域的相同站点的数据帧(第二个和第三个表都具有区域 A 的站点 X2)。

您能否帮我创建多个数据框,以便所有数据框都包含所有区域,但每个数据框都包含唯一的 Region-Site 组合。

编辑:这是预期的输出。为了产生这些,在第一次采样中,从每个区域中随机抽取一个站点(行)并制作一个数据框。在第二次抽样中,重复相同的过程,但无法绘制给定区域的相同站点。我想要的是包含 Region-Site 的独特组合的独立数据框。

0 投票
2 回答
620 浏览

python - 对视频进行二次采样以保存每 N 帧

我有数千个 30sec/20fps/.avi 视频(所以每个视频总共 600 帧)。我需要自动对这些视频进行二次采样,以保存每 100 帧(每 5 秒)。任何图片格式都可以。

在 Matlab (R2015b) 或 Python + 库中是否有一种简单的方法可以做到这一点?

0 投票
2 回答
1021 浏览

macos - 视频样本帧

我正在寻找一种在 OS X/Python3.5 中获取.avi视频文件的方法,每 100 帧进行二次采样,并将这些帧组合成自己的视频。

在我的特殊情况下,视频在 20fps 时为 30 秒,因此新视频只有 6 帧长(我想为多个视频执行此操作,然后稍后将它们组合在一起)。

我安装了opencv,但找不到有关如何执行此操作的文档。如果更容易,我也可以使用不同的库。

0 投票
0 回答
49 浏览

r - 创建特定的子样本

因此,对于我的分析,我需要在我的样本中创建 4 个子样本:

我想比较选民的投票率

1) 家庭中有 0 个其他选民的选民
2) 家庭中有 1 个其他选民的选民
3) 家庭中有 2 个其他选民的选民
4) 家庭中有 3 个以上其他选民的选民

我有7个变量:
1)家庭规模(vn437)
2)HH中第二人的年龄(vn438a)
3)HH中第三人的年龄(vn438b)
等等,直到HH中第六人的年龄

在我的逻辑中,我需要为每个组创建 4 个子样本:

第一组(HH 中的 0 个其他选民)将是满足以下条件的观察:

依此类推,直到我完成 'd$vn438e < 18'

我是 R 的超级菜鸟,我不知道该怎么做。
我将如何创建这些组?我真的很绝望,我一直在寻找几个小时无济于事!

正如 Richard Telford 所建议的,这里是 'dput(head(d))命令的输出:

vn438b = "1000"是 NA 值,但如果我删除它们,我会丢失其他观察结果,所以我没有清理 HH 年龄变量中的第 N 个人。

这也是我希望我的结果最终看起来的样子

编辑

设法自己解决了。对于任何有兴趣的人,这是我的代码:

0 投票
1 回答
1166 浏览

android - 将图像下载到二次采样比例图像视图

我正在使用二次采样比例图像视图来显示大图像(大约 3000x3000)。

我也使用毕加索解码器从互联网下载图像。问题是,当我尝试从缓存中获取图像时,它不起作用,因为毕加索无法下载它。解码器来自官方页面。

我有一个想法,先下载图像并将其保存到文件中,然后再显示。问题是,然后我得到 som skia 异常和其他东西,基本上,这似乎不是正确的方法。

有任何想法吗 ?

0 投票
1 回答
62 浏览

r - R - 如何使用新的随机数和绘图删除重复数据框操作 100 倍

我是 R 的新用户,正在尝试创建数据框的多个子样本。我将数据分配给 4 个层(STRATUM = 1、2、3、4),并且希望在每个层中随机保留指定数量的行。为此,我导入数据,按分层值排序,然后为每一行分配一个随机数。我想保留我原来的随机数分配,因为我需要在以后的分析中再次使用它们,所以我用这些值保存了一个 .csv。接下来,我按层对数据进行子集化,然后指定要在每个层中保留的记录数。最后,我重新加入数据并保存为新的 .csv。该代码有效,但是,我想重复此过程 100 次。在每种情况下,我都想保存分配了随机数的 .csv,以及随机选择的图的最终 .csv。我不确定如何让这段代码重复 100 次,以及如何为每次迭代分配一个唯一的文件名。任何帮助将非常感激。

0 投票
2 回答
3024 浏览

python - 根据加权概率采样 RDD 元素 [Spark]

在 PySpark 中,我有一个由 (key;value) 对组成的 RDD,其中key是顺序整数,value是浮点数。

我想从这个 RDD 中准确地采样一个元素,概率与value成正比。

以一种简单的方式,这个任务可以完成如下:

正如您可能知道的那样,我关心的是collect()在内存中加载整个元组列表的操作,这可能非常昂贵。我知道takeSample(),当应该统一提取元素时,这很好,但是如果应该根据加权概率提取元素会发生什么?

谢谢!

0 投票
1 回答
275 浏览

android - subsamplingscaleimageview 清洁引脚图像

我想在更改背景图像时从我的 PinView 中删除所有图钉。我通过将引脚插入坐标 ArrayList 和引脚图像来添加引脚,并且一切正常。

我能怎么做?

0 投票
1 回答
1587 浏览

statistics - 从非均匀数据创建均匀分布的示例

给定一个具有非均匀分布(高峰值)的数据集,我想重新采样以创建一个具有近似均匀分布的新数据集。我的做法:

  1. 将数据划分为 bin。
  2. 目标 bin 级别 = 所有 bin 中每个 bin 的最小样本数。
  3. 随机删除样本,直到每个 bin 计数 = 目标 bin 级别。

有没有更好的技术?

0 投票
1 回答
1336 浏览

sampling - 负采样和二次采样

我经常听到与 word2vec 一起使用的术语“负采样”和“子采样”。

在我试图弄乱 word2vec 之前,我试图回顾一下引用词嵌入的论文,并从头开始。纸上的踪迹把我带到了这里:

https://gul.gu.se/public/pp/public_courses/course77642/published/1497871737091/resourceId/37659332/content/UploadedResources/lecture10-slides-word2vec_sungmin_VT17.pdf (谷歌,“向量空间中单词表示的有效估计“如果您不信任链接。)

并指出:

在此处输入图像描述

(我熟悉所有要点减去第一个)

我在负采样和二次采样方面发现的唯一内容已包含在有关 word2vec 的文章中,而这正是我要避免的。

如果有人能解释这些术语或指出我正确的方向,将不胜感激:)。

编辑:它本身的子采样标签导致了这个定义:

“二次抽样是一种类似于 bootstrap 的重新抽样过程,其中通过替换绘制的观察结果少于所有观测值(与教科书 bootstrap 方法中使用的原始样本量相比)。要从现有数据中创建样本,请考虑“抽样”而是标记。” ---这方面的具体例子会很棒。