tensorflow - 将文本文档转换为 TensorFlow 中的 tf.data 以便顺序读取

Question

在一个文本语料库中，有 50 个文本文档，每个文档大约有 80 行左右。我想将我的语料库作为输入提供给 tensorflow，但是我想在系统读取每个文档时对每个文档进行批处理？实际上与用于图像的 TfRecord 相同，我想通过使用 Tf.Data 批量处理我的语料库中的每个文档以按顺序读取它？

我该如何解决这个问题？

score 2 · Accepted Answer

您可以创建一个包含文档行的TextLineDataset ：

dataset = tf.data.TextLineDataset(['doc1.txt', 'doc2.txt', ...])

创建数据集后，您可以使用Dataset类的batch方法和其他方法将字符串拆分为批次。

1 回答 1