这有点复杂(至少对我来说很好)。
这是我必须做的:假设我有以下数据集:
date price volume
02-Sep 40 100
03-Sep 45 200
04-Sep 46 150
05-Sep 43 300
假设我有一个断点,希望在我的数据集中创建一个区间。例如,让我的断点 = 200 卷交易。
我想要的是创建一个 ID 列并为每个断点 = 200 记录一个 ID 变量 =1,2,3,...。当您对每个 ID 的所有体积求和时,该值必须在所有 ID 变量中保持不变。
因此,使用上面的示例,我的最终数据集应如下所示:
date price volume id
02-Sep 40 100 1
03-Sep 45 100 1
03-Sep 45 100 2
04-Sep 46 100 2
04-Sep 46 50 3
05-Sep 43 150 3
05-Sep 43 150 4
(最后一行可能会错过一些价值,但这很好。我会踢出最后一个 id)
如您所见,我必须“分解”一些行(例如第二行,我将 200 分成两个 100 卷),以便在所有 ID 中保持总和 200 的恒定值。