我有一个序列化 TensorFlow 示例协议缓冲区的 TFRecord 文件数据集,每个注释一个示例原型,从https://magenta.tensorflow.org/datasets/nsynth下载。我正在使用大约 1 Gb 的测试集,以防有人想下载它来检查下面的代码。每个示例都包含许多特征:音高、乐器...
读取此数据的代码是:
import tensorflow as tf
import numpy as np
sess = tf.InteractiveSession()
# Reading input data
dataset = tf.data.TFRecordDataset('../data/nsynth-test.tfrecord')
# Convert features into tensors
features = {
"pitch": tf.FixedLenFeature([1], dtype=tf.int64),
"audio": tf.FixedLenFeature([64000], dtype=tf.float32),
"instrument_family": tf.FixedLenFeature([1], dtype=tf.int64)}
parse_function = lambda example_proto: tf.parse_single_example(example_proto,features)
dataset = dataset.map(parse_function)
# Consuming TFRecord data.
dataset = dataset.shuffle(buffer_size=10000)
dataset = dataset.batch(batch_size=3)
dataset = dataset.repeat()
iterator = dataset.make_one_shot_iterator()
batch = iterator.get_next()
sess.run(batch)
现在,音高范围从 21 到 108。但我只想考虑给定音高的数据,例如音高 = 51。如何从整个数据集中提取这个“音高 = 51”子集?或者,我该怎么做才能让我的迭代器只通过这个子集?