1

我正在尝试构建一个为图像生成句子描述的深度学习系统。为此,我使用了经过训练的 CNN caffe 模型来获得 4096 维的特征向量。据我了解,我需要将这个 4096 维向量作为 LSTM 的输入。这如何在 caffe 或其他框架中完成?

4

0 回答 0