1

tf.data.* 有数据集类。有一个 TextLineDataset,但我需要一个用于多行文本(在开始/结束标记之间)。有没有办法为 tf.data.TextLineDataset 使用不同的换行符?

我是一位经验丰富的开发人员,但也是一名 python 新手。我可以阅读,但我的写作有限。我正在将现有的 Tensorflow NMT 教程转换为我自己的数据集。大多数 TFRecord 教程都涉及 jpg 或其他结构化数据。

4

1 回答 1

0

您可以尝试两种选择:

  1. 编写一个生成器,然后使用Dataset.from_generator:在您的生成器中,您可以逐行读取文件,在执行此操作时附加到您的示例,然后在遇到自定义分隔符时生成。

  2. 首先解析您的文件,tf.train.SequenceExample使用多行创建,然后将您的数据集存储为TFRecordDataset(我认为更麻烦的选项)

于 2018-08-28T23:30:48.727 回答