deep-learning - 具有可变大小输入序列的 Pytorch Conv3d

翻译自：https://stackoverflow.com/questions/69456862 2021-10-05T20:24:56.170

30 次

我有一组图像（视频）序列，每个图像（视频）的形状为 [D, H, W]，其中每个序列（帧数）的 D 可能不同。以下使用 Conv3d 的方式是否合理？即如果我执行以下操作，自动差异是否正常工作？</p>

initialize empty h_all 
For each sequence:
    h = conv3d(sequence)
    h_all = concat(h_all, h)

现在 h_all 具有以下形状 [K, E] 其中 E 是 conv3d 嵌入大小， K = D1+D2+D3.... 是总帧数。

现在，在 h_all 中的每个单独帧上执行一些下游任务。

0 回答 0