问题标签 [subsampling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何提取数据帧的具体子样本并保存在 pyspark 中的另一个数据帧中?
我有一个名为“df1”的数据框,它有 X 行,假设为 1000。我想要做的是获取该数据框的具体子样本并另存为另一个。例如,我想从“df1”中提取第 400 到 700 行并将其保存为“df2”。
我知道一种可能的方法是将“df1”的内容作为向量获取:
但我的问题是:有没有其他方法可以获得相同的结果而不是将数据加载到列表中?我问这个是因为当你有一个巨大的数据集时,通过收集和生成另一个数据帧可能不会有效地加载数据。
谢谢。
python - 如何为 Python 加速(fasta)子采样程序?
我设计了一个小脚本,从原始文件中对 x 行进行子采样。原始文件是 fasta,每个序列有两行,程序提取这 x 个序列(这两行一起)。这是它的外观:
带有 ID 和核苷酸(分别为第 1 行和第 2 行)的列表的创建过程非常快,但打印出来需要很长时间。被提取的数字可以达到 2M,但从 10000 开始变慢。
我想知道是否有任何方法可以使它更快。是.pop
问题吗?如果我先创建唯一数字的随机列表然后提取它们会更快吗?
最后,终端在打印后没有回到“正常完成状态” Done.
,我不知道为什么。使用我的所有其他脚本,我可以在它们完成后立即输入。
c++ - 如何将 ffmpeg 视频帧转换为 YUV444?
我一直在关注如何使用ffmpeg和 SDL 制作一个没有音频的简单视频播放器的教程(目前)。在浏览本教程时,我意识到它已经过时,并且它使用的许多功能(用于 ffmpeg 和 SDL)已被弃用。因此,我搜索了一个最新的解决方案,并找到了一个 stackoverflow 问题答案,它完成了本教程所缺少的内容。
但是,它使用的是低质量的 YUV420。我想实现 YUV444,在研究了色度二次采样并查看了 YUV 的不同格式之后,我对如何实现它感到困惑。据我了解,YUV420 的质量是 YUV444 的四分之一。YUV444 意味着每个像素都有自己的色度样本,因此更详细,而 YUV420 意味着像素被组合在一起并具有相同的色度样本,因此细节较少。
据我了解,YUV(420, 422, 444) 的不同格式在它们对 y、u 和 v 的排序方式上是不同的。所有这一切都让人有点不知所措,因为我对编解码器、转换、等任何帮助将不胜感激,如果需要更多信息,请在投票前告诉我。
这是我提到的关于转换为 YUV420的答案中的代码:
编辑:
经过更多研究,我了解到在 YUV420 中首先存储所有 Y,然后依次存储 U 和 V 字节的组合,如下图所示:(
来源:wikimedia.org)
但是我也了解到 YUV444 是按 U、Y、V 的顺序存储的,并且像这张图所示的那样重复:
我尝试在代码中更改一些内容:
但是现在我在调用...时遇到访问冲突SDL_UpdateYUVTexture
......老实说,我不确定出了什么问题。我认为这可能与设置AVPicture pic
的成员data
和linesize
不当有关,但我并不积极。
android-constraintlayout - Android 可缩放约束布局
我是android新手,有一些问题。这个想法是模拟一个书页,上面有一些图像和文本,以及放大一列的动画,点击按钮后会放大页面的不同部分等等。我已经看到了一些很好的 imageView 捏缩放和平移库,例如 davemorrissey 的 PhotoView 和 Subsampling image scale。我希望在整个约束布局及其所有子视图(包括 textViews 而不仅仅是 imageView)上进行缩放和平移功能。我也看过 zoomLayout 库,但显然它在小时候使用 constraintLayout 有一些问题。是否有任何解决方案可以为此目的使用可爱的二次采样库?如果没有,我必须在哪里看?任何建议将不胜感激。谢谢
pytorch - 使用带有大 num_samples 的 WeightedRandomSampler 或使用较低的 num_samples 做更多的 epoch 之间有什么区别吗?
我不明白何时进行采样:
每个 epoch 的第一个 mini batch 是否相同?还是根本没有区别?
r - R(和 dplyr?) - 按组从数据帧中采样,最大样本大小为 n
我有一个数据框,每组包含多个样本(1-n)。我想在不替换的情况下对这个数据集进行采样,这样我每组最多有 5 个样本(1-5)。
此问题之前已在此处进行了描述和回答。在这个问题中,@evolvedmicrobe的回答对我来说是最令人满意的,并且过去一直有效。这似乎在过去一年左右的时间里打破了。
这是我想做的一个可行的例子:
在 mtcars 中,按“cyl”分组时行数不同。
我想创建一个子样本,其中每组 cyl 的最大汽车数量为 10。结果的行数理论上看起来像:
我对此的天真尝试是:
但是,因为一组少于 10 行:
错误:
size
必须小于或等于 7(数据大小),设置replace
= TRUE 以使用带替换的采样
@evolvedmicrobe 对此的回答是创建一个自定义采样函数:
这个函数在过去一直有效,我刚刚尝试重新运行它,但它不再有效,相反,它会抛出与当前 mtcars 示例相同的错误:
dplyr:::sample_group(index[[i]], frac = FALSE, tbl = tbl, size = sizes[i], : 未使用的参数 (tbl = tbl) 调用自:FUN(X[[i]], ...)
有没有人有更好的按组抽样的方法,无需更换,达到每组的最大尺寸?我通常不是 dplyr 的大用户,因此也欢迎来自 base R 或其他软件包的所有选项。
否则,有没有人知道为什么以前的解决方法已经停止工作?
感谢大家的时间。
python - 如何控制子采样以使 xgb.cv 和 cross_validate 产生相同的结果?
xgb.cv
sklearn.model_selection.cross_validate
即使我设置了相同的种子/随机状态并且我确保两种方法都使用相同的折叠,也不会产生相同的平均训练/测试错误。底部的代码允许重现我的问题。(提前停止默认关闭)。
我发现这个问题是由subsample
参数引起的(如果此参数设置为 1,两种方法都会产生相同的结果),但我找不到一种方法可以使两种方法以相同的方式进行子采样。除了如底部代码所示设置种子/随机状态外,我还尝试显式添加:
在我文件的开头,但这也不能解决我的问题。有任何想法吗?
输出:
子样本设置为 1 时的输出:
python-3.x - 如何根据数组的密度对数组进行二次采样?(去除频繁值,保留稀有值)
我有这个问题,我想绘制一个数据分布,其中一些值经常出现,而另一些则非常罕见。总点数约为 30.000。渲染像 png 或(上帝保佑)pdf 这样的图需要很长时间,而且 pdf 太大而无法显示。
所以我想只为地块对数据进行二次抽样。我想要实现的是删除很多重叠的点(密度高的地方),但保留密度低的点,概率几乎为 1。
现在,numpy.random.choice
允许指定一个概率向量,我已经根据数据直方图进行了一些调整来计算它。但我似乎无法得到我的选择,以便真正保留稀有点。
我附上了数据的图像;分布的右尾的点要少几个数量级,所以我想保留这些点。数据是 3d,但密度仅来自一维,所以我可以用它来衡量给定位置有多少点