我已经为我的原始数据实现了一个自定义的 TensorFlow 数据集。tensorflow.data.Dataset
我可以按如下方式下载、准备和加载数据:
import tensorflow_datasets
builder = tensorflow_datasets.builder("my_dataset")
builder.download_and_prepare()
ds = builder.as_dataset()
我想在TensorFlow 转换管道中转换这些数据以进行模型训练。但是,我能够将数据集传递到转换管道的唯一方法是将其转换为实例字典并传入原始数据元数据。
instance_dicts = tensorflow_datasets.as_dataframe(ds).to_dict(orient="records")
with tensorflow_transform.beam.Context():
(transformed_data, _), transform_fn = (
instance_dicts,
RAW_DATA_METADATA,
) | tensorflow_transform.beam.AnalyzeAndTransformDataset(
preprocessing_fn, output_record_batches=True
)
将 TensorFlow 数据集传递到 TensorFlow 转换管道是否有更简单、内存效率更高的方法?