0

在一个文本语料库中,有 50 个文本文档,每个文档大约有 80 行左右。我想将我的语料库作为输入提供给 tensorflow,但是我想在系统读取每个文档时对每个文档进行批处理?实际上与用于图像的 TfRecord 相同,我想通过使用 Tf.Data 批量处理我的语料库中的每个文档以按顺序读取它?

我该如何解决这个问题?

4

1 回答 1

2

您可以创建一个包含文档行的TextLineDataset :

dataset = tf.data.TextLineDataset(['doc1.txt', 'doc2.txt', ...])

创建数据集后,您可以使用Dataset类的batch方法和其他方法将字符串拆分为批次。

于 2017-11-15T05:08:21.267 回答