0 投票

1 回答

667 浏览

python - 如何提取数据帧的具体子样本并保存在 pyspark 中的另一个数据帧中？

我有一个名为“df1”的数据框，它有 X 行，假设为 1000。我想要做的是获取该数据框的具体子样本并另存为另一个。例如，我想从“df1”中提取第 400 到 700 行并将其保存为“df2”。

我知道一种可能的方法是将“df1”的内容作为向量获取：

但我的问题是：有没有其他方法可以获得相同的结果而不是将数据加载到列表中？我问这个是因为当你有一个巨大的数据集时，通过收集和生成另一个数据帧可能不会有效地加载数据。

谢谢。

2017-10-20T07:09:21.117

0 投票

1 回答

477 浏览

python - python中numpy数组的正态分布子采样

我有一个 numpy 数组，其值以下列方式分布

从这个数组中，我需要得到一个正态分布的随机子样本。

我需要从数组中删除图片中红线上方的值。即我需要从数组中删除某些值的出现，以便在删除突然的峰值时我的分布变得平滑。

我的数组的分布应该是这样的：

这可以在 python 中实现，而无需手动查找与峰值对应的条目并删除它们的一些出现吗？这可以以更简单的方式完成吗？

python arrays numpy normal-distribution subsampling

2017-12-08T05:50:29.987

0 投票

1 回答

152 浏览

python - 如何为 Python 加速（fasta）子采样程序？

我设计了一个小脚本，从原始文件中对 x 行进行子采样。原始文件是 fasta，每个序列有两行，程序提取这 x 个序列（这两行一起）。这是它的外观：

带有 ID 和核苷酸（分别为第 1 行和第 2 行）的列表的创建过程非常快，但打印出来需要很长时间。被提取的数字可以达到 2M，但从 10000 开始变慢。

我想知道是否有任何方法可以使它更快。是.pop问题吗？如果我先创建唯一数字的随机列表然后提取它们会更快吗？

最后，终端在打印后没有回到“正常完成状态” Done.，我不知道为什么。使用我的所有其他脚本，我可以在它们完成后立即输入。

python performance fasta subsampling

2018-01-13T14:00:10.013

0 投票

1 回答

691 浏览

matlab - 减少像素数以获得低分辨率图像

我正在尝试为我的工作使用不同的低分辨率图像。最近，我正在阅读用于自动目标识别的低分辨率卷积神经网络，其中他们没有提到他们如何制作低分辨率图像。

特征计算的分辨率适应：为了显示分辨率对这些图像表示的性能的影响，我们关注从 200 × 200 到 10 × 10 像素的七种特定分辨率

这是论文中的示例图像。

有人请帮我在MATLAB中实现这个方法吗？

目前，我正在使用这种方式制作低分辨率图像：

matlab image-processing computer-vision subsampling

2018-01-25T05:02:47.310

0 投票

1 回答

2649 浏览

c++ - 如何将 ffmpeg 视频帧转换为 YUV444？

我一直在关注如何使用ffmpeg和 SDL 制作一个没有音频的简单视频播放器的教程（目前）。在浏览本教程时，我意识到它已经过时，并且它使用的许多功能（用于 ffmpeg 和 SDL）已被弃用。因此，我搜索了一个最新的解决方案，并找到了一个 stackoverflow 问题答案，它完成了本教程所缺少的内容。

但是，它使用的是低质量的 YUV420。我想实现 YUV444，在研究了色度二次采样并查看了 YUV 的不同格式之后，我对如何实现它感到困惑。据我了解，YUV420 的质量是 YUV444 的四分之一。YUV444 意味着每个像素都有自己的色度样本，因此更详细，而 YUV420 意味着像素被组合在一起并具有相同的色度样本，因此细节较少。

据我了解，YUV(420, 422, 444) 的不同格式在它们对 y、u 和 v 的排序方式上是不同的。所有这一切都让人有点不知所措，因为我对编解码器、转换、等任何帮助将不胜感激，如果需要更多信息，请在投票前告诉我。

这是我提到的关于转换为 YUV420的答案中的代码：

编辑：

经过更多研究，我了解到在 YUV420 中首先存储所有 Y，然后依次存储 U 和 V 字节的组合，如下图所示：（ _来源：_{wikimedia.org}_）

但是我也了解到 YUV444 是按 U、Y、V 的顺序存储的，并且像这张图所示的那样重复：

我尝试在代码中更改一些内容：

但是现在我在调用...时遇到访问冲突SDL_UpdateYUVTexture......老实说，我不确定出了什么问题。我认为这可能与设置AVPicture pic的成员data和linesize不当有关，但我并不积极。

c++c ffmpeg yuv subsampling

2018-03-04T23:41:04.960

0 投票

1 回答

866 浏览

android-constraintlayout - Android 可缩放约束布局

我是android新手，有一些问题。这个想法是模拟一个书页，上面有一些图像和文本，以及放大一列的动画，点击按钮后会放大页面的不同部分等等。我已经看到了一些很好的 imageView 捏缩放和平移库，例如 davemorrissey 的 PhotoView 和 Subsampling image scale。我希望在整个约束布局及其所有子视图（包括 textViews 而不仅仅是 imageView）上进行缩放和平移功能。我也看过 zoomLayout 库，但显然它在小时候使用 constraintLayout 有一些问题。是否有任何解决方案可以为此目的使用可爱的二次采样库？如果没有，我必须在哪里看？任何建议将不胜感激。谢谢

android-constraintlayout pinchzoom subsampling android-photoview

2018-08-30T06:39:34.883

0 投票

0 回答

201 浏览

pytorch - 使用带有大 num_samples 的 WeightedRandomSampler 或使用较低的 num_samples 做更多的 epoch 之间有什么区别吗？

我不明白何时进行采样：

每个 epoch 的第一个 mini batch 是否相同？还是根本没有区别？

pytorch sampling resampling subsampling statistical-sampling

2018-09-12T10:13:28.863

0 投票

4 回答

1788 浏览

r - R（和 dplyr？） - 按组从数据帧中采样，最大样本大小为 n

我有一个数据框，每组包含多个样本（1-n）。我想在不替换的情况下对这个数据集进行采样，这样我每组最多有 5 个样本（1-5）。

此问题之前已在此处进行了描述和回答。在这个问题中，@evolvedmicrobe的回答对我来说是最令人满意的，并且过去一直有效。这似乎在过去一年左右的时间里打破了。

这是我想做的一个可行的例子：

在 mtcars 中，按“cyl”分组时行数不同。

我想创建一个子样本，其中每组 cyl 的最大汽车数量为 10。结果的行数理论上看起来像：

我对此的天真尝试是：

但是，因为一组少于 10 行：

错误：size必须小于或等于 7（数据大小），设置replace= TRUE 以使用带替换的采样

@evolvedmicrobe 对此的回答是创建一个自定义采样函数：

这个函数在过去一直有效，我刚刚尝试重新运行它，但它不再有效，相反，它会抛出与当前 mtcars 示例相同的错误：

dplyr:::sample_group(index[[i]], frac = FALSE, tbl = tbl, size = sizes[i], : 未使用的参数 (tbl = tbl) 调用自：FUN(X[[i]], ...)

有没有人有更好的按组抽样的方法，无需更换，达到每组的最大尺寸？我通常不是 dplyr 的大用户，因此也欢迎来自 base R 或其他软件包的所有选项。

否则，有没有人知道为什么以前的解决方法已经停止工作？

感谢大家的时间。

r dplyr subsampling

2018-10-15T12:07:06.583

0 投票

1 回答

589 浏览

python - 如何控制子采样以使 xgb.cv 和 cross_validate 产生相同的结果？

xgb.cvsklearn.model_selection.cross_validate即使我设置了相同的种子/随机状态并且我确保两种方法都使用相同的折叠，也不会产生相同的平均训练/测试错误。底部的代码允许重现我的问题。（提前停止默认关闭）。

我发现这个问题是由subsample参数引起的（如果此参数设置为 1，两种方法都会产生相同的结果），但我找不到一种方法可以使两种方法以相同的方式进行子采样。除了如底部代码所示设置种子/随机状态外，我还尝试显式添加：

在我文件的开头，但这也不能解决我的问题。有任何想法吗？

输出：

子样本设置为 1 时的输出：

python scikit-learn xgboost subsampling

2018-11-24T17:00:36.710

0 投票

2 回答

1593 浏览

python-3.x - 如何根据数组的密度对数组进行二次采样？（去除频繁值，保留稀有值）

我有这个问题，我想绘制一个数据分布，其中一些值经常出现，而另一些则非常罕见。总点数约为 30.000。渲染像 png 或（上帝保佑）pdf 这样的图需要很长时间，而且 pdf 太大而无法显示。

所以我想只为地块对数据进行二次抽样。我想要实现的是删除很多重叠的点（密度高的地方），但保留密度低的点，概率几乎为 1。

现在，numpy.random.choice允许指定一个概率向量，我已经根据数据直方图进行了一些调整来计算它。但我似乎无法得到我的选择，以便真正保留稀有点。

我附上了数据的图像；分布的右尾的点要少几个数量级，所以我想保留这些点。数据是 3d，但密度仅来自一维，所以我可以用它来衡量给定位置有多少点

python-3.x numpy matplotlib subsampling

2018-11-29T16:43:50.243

问题标签 [subsampling]

编辑：

Reference