我有一组图像(视频)序列,每个图像(视频)的形状为 [D, H, W],其中每个序列(帧数)的 D 可能不同。以下使用 Conv3d 的方式是否合理?即如果我执行以下操作,自动差异是否正常工作?</p>
initialize empty h_all
For each sequence:
h = conv3d(sequence)
h_all = concat(h_all, h)
现在 h_all 具有以下形状 [K, E] 其中 E 是 conv3d 嵌入大小, K = D1+D2+D3.... 是总帧数。
现在,在 h_all 中的每个单独帧上执行一些下游任务。