1

我正在 TensorFlow 中构建 RNN 语言模型。我的原始输入由文本文件组成。我能够对它们进行标记,因此我正在使用的数据是作为词汇表索引的整数序列。

按照 中的示例ptb_word_lm.py,我编写了代码来构建一个语言模型,该模型通过feed_dict方法获取其训练数据。但是,我不想局限于可以放入内存的数据集,所以我想使用文件管道来读取数据。我找不到任何如何做到这一点的例子。

我见过的文件管道示例都有一个长度为n的张量与长度为 1 的张量的标签相关联。(经典示例是 28 x 28 = 784 项张量,表示与单个整数相关联的 MNIST 位图标签范围从 0 到 9。)但是,RNN 训练数据由 n 个连续标记的向量一个也由n个连续标记组成的标签(在向量前移动一个)组成,例如:

"the quick brown fox jumped"
vectors (n=3): the quick brown, quick brown fox, brown fox jumped
labels (n=3): quick brown fox, brown fox jumped, fox jumped EOF

有人可以给我一个代码片段,展示如何编写文件管道以将这种形状的数据输入到 TensorFlow 图中吗?

4

0 回答 0