问题标签 [downsampling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3907 浏览

pdf - pdf图像的ghostscript下采样,下采样因子错误

我发出以下命令:

并得到以下错误:

(在某些页面上)

和:

最初我尝试下采样到 150dpi,这给出了因子(2.40????)的错误,这意味着多个错误,其中最后几位数字对于不同的页面是不同的。所以我猜图像大约是 150*2.4 = 360 dpi。所以我尝试下采样到 180。但似乎图像都略有偏差?

  1. 有没有办法指定因子而不是 dpi?
  2. 有没有办法“四舍五入”这个因素?
0 投票
2 回答
1077 浏览

r - 在R中对矩阵进行下采样

我有一个相对高维(100X500000)的矩阵 Q,我想对其进行下采样。通过下采样,我将举例说明。

让 Q =

并且下采样大小= n。我想从一个 sum(Q) = 20 个球的罐子中画出 n 个球,每个球的颜色为 6 种方式中的 1 种,对应于矩阵的不同索引对。这就像我有 1 个颜色 A 的球,4 个颜色 B 的球,等等,我正在绘制 n 个没有替换的球。

我希望它以与矩阵相同的格式返回。一个示例返回值,例如 downsample(Q, 3) =

我的方法是尝试使用示例:

但是问题是,示例将 1:length(as.vector(Q)) 视为我拥有的所有球,所以我不能画超过 length(as.vector(Q)) 球,因为我不是更换我的球。

因此,为了调整我的方法,我需要通过从该向量中减去 1 来更新我的概率,并使用某种 for 循环逐个调用样本。这听起来不像是好代码。

有没有更好的方法以 R 友好、无 for 循环的方式做到这一点?

0 投票
1 回答
1122 浏览

arrays - 通过抽取或提取 Swift 中的每个第 n 个元素来进行下采样收集的有效方法

我试图通过抽取或提取每个第 n 个元素来对长集合进行下采样。

这是我的数组扩展得到的:

我预计原始数组中有 50-100k 个项目,并且可能会下采样到屏幕的原生边界宽度(500-1k 点)。

有没有更简洁或有效的方法来做到这一点?

0 投票
1 回答
734 浏览

machine-learning - 对文本文档进行下采样

我有两个类,第一类有 1000 个文档,第二类有 40000 个文档。文件由文本组成。我想在神经网络中使用这些文本。但是当然有一个不平衡的数据集问题。每个分类器都会将所有文档分类为第二类并说“我的准确率高达 97.5%。

您是否知道是否有任何实现可以检查第二类中的文档相似性以及将它们聚类的种类,然后仅删除与其集群大小成比例的每个集群的文档?

或者您是否知道具有相同目标的类似方法?

0 投票
1 回答
1511 浏览

image-processing - 如何在 VGG16 或 InceptionV3 中使用非常高分辨率的图像

我有一组从显微镜下拍摄并使用高分辨率相机记录的细菌图像数据集。图像的分辨率为 800x600,在另一个数据集(取自不同的显微镜)中,分辨率约为 5312x2988。VGG16 和 InceptionV3 等模型在 224x224 的图像分辨率上进行训练。

如何正确地将图像数据输入网络。我是否将图像缩减为 224x224?我认为这会导致预测所需的质量损失过多。还有其他更好的方法吗?

0 投票
2 回答
2727 浏览

python - 在 TensorFlow 上调整 MNIST 数据的大小

我一直在研究 MNIST 数据集,以学习如何在我的深度学习课程中使用 Tensorflow 和 Python。

由于网站上的 tensorflow 教程,我可以在内部/外部读取数据,还可以在 softmax 和 cnn 中对其进行训练。最后,我可以在 softmax 中获得 >%90,在 cnn 中获得 >%98,准确度。

我的问题是我想将 MNIST 上的所有图像调整为 14x14 并再次训练它,同时增强所有图像(噪声、旋转等)并再次训练。最后,我希望能够比较这三个不同数据集的准确性。

你能帮我解决吗?如何调整所有图像的大小以及模型应如何更改。

谢谢!

0 投票
2 回答
730 浏览

python - 使用python(numpy memmap,pytables或其他?)对巨大矩阵进行快速下采样

作为数据处理的一部分,我生成了大约 100000*100000 个单元格的巨大非稀疏矩阵,我想将其下采样 10 倍以减少数据量。在这种情况下,我想对 10*10 像素的块进行平均,以将矩阵的大小从 100000*100000 减小到 10000*10000。

使用python最快的方法是什么?是否需要将原始数据保存为新的数据格式对我来说并不重要,因为我必须多次对同一数据集进行下采样。

目前我正在使用 numpy.memmap:

但是对于大文件,这种方法变得非常慢。这可能与这些文件的二进制数据有关,这些文件按行排序。因此,我认为将我的数据存储在块而不是行中的数据格式会更快,但我不确定性能提升会是什么以及是否有支持这一点的 python 包。

在创建如此庞大的矩阵(此处未显示)之前,我还考虑过对数据进行下采样,但是我的输入数据是断裂且不规则的,因此会变得非常复杂。

0 投票
0 回答
846 浏览

opengl - 从级别 0 采样时是否可以渲染到纹理的 mipmap 级别 1?(opengl,纹理 2d)

是否可以在从其他级别采样时渲染到 RenderTexture 的 mipmap 级别之一?

情况是我想使用着色器将纹理缩小 4 次,我可以将所有这些中间结果放在一个大纹理上(在 0 级,没有 mip 级别),但我不知道如何处理纹理单元边缘(GL_CLAMP, GL_REPEAT),另一种方法是创建 4 个 FBO,但不如使用相同纹理不同的 mipmap 级别方便。

你说什么?

谢谢你。

0 投票
1 回答
887 浏览

sql - 对 postgresql 表进行下采样

我有一个非常简单的数据库模型,两个表:对象数据,以 1:n 关系链接。

每分钟,对于每个对象,都会保存一个新数据。有趣的属性是:object_id (int)、created_at (timestamp) 和value (varchar)。Object_idcreated_at用作复合 PK)

我的问题是它产生了太多的数据。我正在尝试找到一种有效的方法来定期对数据进行下采样。我需要做什么 :

  • 上周不要碰 X
  • 每个对象每 Y 分钟只保留一个值。

我对 plpgsql 不太熟悉,我强烈怀疑 date_trunc 和/或包含该日期的复合 PK 有什么聪明的事情要做......

pgsql 9.4.10

0 投票
0 回答
462 浏览

sql - Postgres:每2小时下采样一次?

我一直在尝试在 postgres 中对我的数据进行下采样,以模仿 python 提供的下采样(使用'resample')。

到目前为止,我已经设法在单个时间单位内做到这一点:

每 1 小时分组一次。

如果我希望每 2 小时/5 小时等进行一次下采样怎么办?