问题标签 [subsampling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
667 浏览

python - 如何提取数据帧的具体子样本并保存在 pyspark 中的另一个数据帧中?

我有一个名为“df1”的数据框,它有 X 行,假设为 1000。我想要做的是获取该数据框的具体子样本并另存为另一个。例如,我想从“df1”中提取第 400 到 700 行并将其保存为“df2”。

我知道一种可能的方法是将“df1”的内容作为向量获取:

但我的问题是:有没有其他方法可以获得相同的结果而不是将数据加载到列表中?我问这个是因为当你有一个巨大的数据集时,通过收集和生成另一个数据帧可能不会有效地加载数据。

谢谢。

0 投票
1 回答
477 浏览

python - python中numpy数组的正态分布子采样

我有一个 numpy 数组,其值以下列方式分布

在此处输入图像描述

从这个数组中,我需要得到一个正态分布的随机子样本。

在此处输入图像描述

我需要从数组中删除图片中红线上方的值。即我需要从数组中删除某些值的出现,以便在删除突然的峰值时我的分布变得平滑。

我的数组的分布应该是这样的: 在此处输入图像描述

这可以在 python 中实现,而无需手动查找与峰值对应的条目并删除它们的一些出现吗?这可以以更简单的方式完成吗?

0 投票
1 回答
152 浏览

python - 如何为 Python 加速(fasta)子采样程序?

我设计了一个小脚本,从原始文件中对 x 行进行子采样。原始文件是 fasta,每个序列有两行,程序提取这 x 个序列(这两行一起)。这是它的外观:

带有 ID 和核苷酸(分别为第 1 行和第 2 行)的列表的创建过程非常快,但打印出来需要很长时间。被提取的数字可以达到 2M,但从 10000 开始变慢。

我想知道是否有任何方法可以使它更快。是.pop问题吗?如果我先创建唯一数字的随机列表然后提取它们会更快吗?

最后,终端在打印后没有回到“正常完成状态” Done.,我不知道为什么。使用我的所有其他脚本,我可以在它们完成后立即输入。

0 投票
1 回答
691 浏览

matlab - 减少像素数以获得低分辨率图像

我正在尝试为我的工作使用不同的低分辨率图像。最近,我正在阅读用于自动目标识别的低分辨率卷积神经网络,其中他们没有提到他们如何制作低分辨率图像。

特征计算的分辨率适应:为了显示分辨率对这些图像表示的性能的影响,我们关注从 200 × 200 到 10 × 10 像素的七种特定分辨率

这是论文中的示例图像在此处输入图像描述

有人请帮我在MATLAB中实现这个方法吗?

目前,我正在使用这种方式制作低分辨率图像:

0 投票
1 回答
2649 浏览

c++ - 如何将 ffmpeg 视频帧转换为 YUV444?

我一直在关注如何使用ffmpeg和 SDL 制作一个没有音频的简单视频播放器的教程(目前)。在浏览本教程时,我意识到它已经过时,并且它使用的许多功能(用于 ffmpeg 和 SDL)已被弃用。因此,我搜索了一个最新的解决方案,并找到了一个 stackoverflow 问题答案,它完成了本教程所缺少的内容。

但是,它使用的是低质量的 YUV420。我想实现 YUV444,在研究了色度二次采样并查看了 YUV 的不同格式之后,我对如何实现它感到困惑。据我了解,YUV420 的质量是 YUV444 的四分之一。YUV444 意味着每个像素都有自己的色度样本,因此更详细,而 YUV420 意味着像素被组合在一起并具有相同的色度样本,因此细节较少。

据我了解,YUV(420, 422, 444) 的不同格式在它们对 y、u 和 v 的排序方式上是不同的。所有这一切都让人有点不知所措,因为我对编解码器、转换、等任何帮助将不胜感激,如果需要更多信息,请在投票前告诉我。

这是我提到的关于转换为 YUV420的答案中的代码:

编辑:

经过更多研究,我了解到在 YUV420 中首先存储所有 Y,然后依次存储 U 和 V 字节的组合,如下图所示:( 来源:wikimedia.org

但是我也了解到 YUV444 是按 U、Y、V 的顺序存储的,并且像这张图所示的那样重复:

我尝试在代码中更改一些内容:

但是现在我在调用...时遇到访问冲突SDL_UpdateYUVTexture......老实说,我不确定出了什么问题。我认为这可能与设置AVPicture pic的成员datalinesize不当有关,但我并不积极。

0 投票
1 回答
866 浏览

android-constraintlayout - Android 可缩放约束布局

我是android新手,有一些问题。这个想法是模拟一个书页,上面有一些图像和文本,以及放大一列的动画,点击按钮后会放大页面的不同部分等等。我已经看到了一些很好的 imageView 捏缩放和平移库,例如 davemorrissey 的 PhotoView 和 Subsampling image scale。我希望在整个约束布局及其所有子视图(包括 textViews 而不仅仅是 imageView)上进行缩放和平移功能。我也看过 zoomLayout 库,但显然它在小时候使用 constraintLayout 有一些问题。是否有任何解决方案可以为此目的使用可爱的二次采样库?如果没有,我必须在哪里看?任何建议将不胜感激。谢谢

0 投票
0 回答
201 浏览

pytorch - 使用带有大 num_samples 的 WeightedRandomSampler 或使用较低的 num_samples 做更多的 epoch 之间有什么区别吗?

我不明白何时进行采样:

每个 epoch 的第一个 mini batch 是否相同?还是根本没有区别?

0 投票
4 回答
1788 浏览

r - R(和 dplyr?) - 按组从数据帧中采样,最大样本大小为 n

我有一个数据框,每组包含多个样本(1-n)。我想在不替换的情况下对这个数据集进行采样,这样我每组最多有 5 个样本(1-5)。

此问题之前已在此处进行了描述和回答。在这个问题中,@evolvedmicrobe的回答对我来说是最令人满意的,并且过去一直有效。这似乎在过去一年左右的时间里打破了。

这是我想做的一个可行的例子:

在 mtcars 中,按“cyl”分组时行数不同。

我想创建一个子样本,其中每组 cyl 的最大汽车数量为 10。结果的行数理论上看起来像:

我对此的天真尝试是:

但是,因为一组少于 10 行:

错误:size必须小于或等于 7(数据大小),设置replace= TRUE 以使用带替换的采样

@evolvedmicrobe 对此的回答是创建一个自定义采样函数:

这个函数在过去一直有效,我刚刚尝试重新运行它,但它不再有效,相反,它会抛出与当前 mtcars 示例相同的错误:

dplyr:::sample_group(index[[i]], frac = FALSE, tbl = tbl, size = sizes[i], : 未使用的参数 (tbl = tbl) 调用自:FUN(X[[i]], ...)

有没有人有更好的按组抽样的方法,无需更换,达到每组的最大尺寸?我通常不是 dplyr 的大用户,因此也欢迎来自 base R 或其他软件包的所有选项。

否则,有没有人知道为什么以前的解决方法已经停止工作?

感谢大家的时间。

0 投票
1 回答
589 浏览

python - 如何控制子采样以使 xgb.cv 和 cross_validate 产生相同的结果?

xgb.cvsklearn.model_selection.cross_validate即使我设置了相同的种子/随机状态并且我确保两种方法都使用相同的折叠,也不会产生相同的平均训练/测试错误。底部的代码允许重现我的问题。(提前停止默认关闭)。

我发现这个问题是由subsample参数引起的(如果此参数设置为 1,两种方法都会产生相同的结果),但我找不到一种方法可以使两种方法以相同的方式进行子采样。除了如底部代码所示设置种子/随机状态外,我还尝试显式添加:

在我文件的开头,但这也不能解决我的问题。有任何想法吗?

输出:

子样本设置为 1 时的输出:

0 投票
2 回答
1593 浏览

python-3.x - 如何根据数组的密度对数组进行二次采样?(去除频繁值,保留稀有值)

我有这个问题,我想绘制一个数据分布,其中一些值经常出现,而另一些则非常罕见。总点数约为 30.000。渲染像 png 或(上帝保佑)pdf 这样的图需要很长时间,而且 pdf 太大而无法显示。

所以我想只为地块对数据进行二次抽样。我想要实现的是删除很多重叠的点(密度高的地方),但保留密度低的点,概率几乎为 1。

现在,numpy.random.choice允许指定一个概率向量,我已经根据数据直方图进行了一些调整来计算它。但我似乎无法得到我的选择,以便真正保留稀有点。

我附上了数据的图像;分布的右尾的点要少几个数量级,所以我想保留这些点。数据是 3d,但密度仅来自一维,所以我可以用它来衡量给定位置有多少点

在此处输入图像描述