问题标签 [subsampling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1414 浏览

r - 如何根据 R 中的日期时间列对数据框进行子采样

我想从日期时间列中每隔一小时对数据框进行二次采样,从数据框第一行中的时间值开始。我的数据框从第一行到最后一行每隔 10 分钟运行一次。示例数据如下:

df

我想最终得到以下数据框:

任何建议将不胜感激!

0 投票
1 回答
203 浏览

stata - 按家庭,仅在 2000 年 2 月之后开始观察时才保留数据 - Stata

我在 Stata 工作,拥有列出投资组合(houseID)、年份和月份、stockID 和股票回报的数据。数据跨越数年。看起来像:

我的数据

我本质上是在尝试隔离数据的子样本。如果他们的第一次投资组合观察是在 2000 年 2 月,我想只保留这些房屋及其数据。在上面的数据中,我想删除 223 和 382 的房屋,只保留 448 的数据。

我的第一次尝试是做类似的事情:

通过 HouseID:保持如果....

但我一直在搞砸它。有没有人有任何想法?谢谢您的帮助!!

0 投票
1 回答
3918 浏览

r - 如何在 R 中对 SpatialPointsDataFrame 进行子采样

我正在运行 RandomForest。我已经导入了表示已使用和未使用站点的点数据,并从栅格 GIS 图层创建了栅格堆栈。我创建了一个 SpatialPointDataFrame,其中包含所有已使用和未使用的点,并附加了它们的基础栅格值。

接下来我计划使用这些数据运行一个随机森林。问题是,我有一个非常大的数据集(超过 40,000 个数据点)。我需要对我的数据进行子采样,但我很难弄清楚如何做到这一点。我试过使用 sample() 函数,但我认为因为我有一个 SpatialPointsDataFram 它不会工作?我是 R 新手,非常感谢任何想法。

谢谢!

0 投票
0 回答
134 浏览

php - 是否可以使用 php 调整 jpeg 子采样?

我正在为客户制作图像上传器并致力于最小化文件大小。已经在调整质量,设置优化和渐进,删除exif数据,只是在寻找一种调整二次采样和平滑的方法。只是想知道是否有一个 php 函数可以将 jpeg 的色度子采样调整为 4X2X2 而不是 4X4X4。我不使用 IMagick,所以我想知道是否有一些常规的 php 函数可以做到这一点。

0 投票
1 回答
868 浏览

pandas - Pandas 二次抽样

我有一些及时测量的事件数据,所以数据格式看起来像

这里的第一列是自实验开始以来经过的时间,以秒为单位。其他两列是一些观察。当某些条件为真时会创建一行,这些条件超出了这里讨论的范围。用分号分隔的每组 3 个数字是一行数据。由于这里的最低时间分辨率只有几秒钟,因此您可以有两行具有相同的时间戳,但会有不同的观察结果。基本上这是两个不同的事件,时间无法区分。

现在我的问题是通过每 10 秒或 100 秒或 1000 秒对其进行二次抽样来汇总数据系列。所以我想要一个从原始更高粒度数据系列中提取的数据系列。有几种方法可以决定您将使用哪一行,例如,假设您每 10 秒进行一次二次采样,当 10 秒过去时,您可能会有多行,时间戳为 10 秒。你可以采取

我希望在熊猫中做到这一点,任何想法或开始的方式将不胜感激。谢谢。

0 投票
0 回答
384 浏览

opencv - DO i have to apply activation function on Max value in Max pooling?

I am trying to implement convolutional neural network by Lecun. I have two questions. 1) Do i have to multiply activation function on the (max_value * weight_value) in the maxpooling layer. 2) if yes than in backpropagating the error as i selected only one value from 2x2 receptive field. How can i distribute the error for the other 3 values in the receptive field. Should i replicate one error for all 2x2 window. 3) If no than in backpropagation How can i take determinant of the output i.e. (x*(1-x)? As to find gradient, we need derivative of the activated weighted sum i.e f'(x) 4) USing stochastic diagonal livenberg marquardt method, What should i take the value for eeta, and meeo in equation (21) page 2319 of Lecun Paper http://enpub.fulton.asu.edu/cseml/summer08/papers/cnn-appendix.pdf

I will be thankful for any explanation, or code sample etc. Regards

0 投票
15 回答
73466 浏览

python - Scikit-learn 平衡子采样

我正在尝试为我的大型不平衡数据集创建 N 个平衡随机子样本。有没有办法简单地使用 scikit-learn / pandas 来做到这一点,还是我必须自己实现它?任何指向执行此操作的代码的指针?

这些子样本应该是随机的,并且可以重叠,因为我将每个子样本提供给一个非常大的分类器集合中的单独分类器。

在 Weka 中有一个名为 spreadsubsample 的工具,在 sklearn 中是否有等价物? http://wiki.pentaho.com/display/DATAMINING/SpreadSubsample

(我知道权重,但这不是我想要的。)

0 投票
1 回答
3599 浏览

neural-network - 在著名的卷积神经网络示例中无法计算池化和二次采样后的维度

Yann LeCun 的感知和推理的层次模型

上图来自 Yann LeCun 的 pdf,标题为“Hierarchical Models Of Perception and Reasoning”

我无法理解第 2 层如何是 14X14 特征图?具有 10X10 池化和 5X5 子采样的 75X75 矩阵如何给出 14X14 矩阵?

0 投票
1 回答
867 浏览

python - 熊猫 - 连续值必须不同

我想对数据帧的行进行子采样,以使给定列中的所有连续值对都不同,如果其中两个相同,请保留第一个。

这是一个例子

在 desiredDf 中,p 列中的所有 2 个连续值都是不同的。

0 投票
2 回答
100 浏览

classification - How to Sub-Sample Dataset

I'm going to implement svm(support vector machines) and various other classifying algorithms. But my train dataset is of 10Gb. How can I sub-sample it ? This is a very basic level question but I'm a beginner.

Thank for the help