numpy - 将 .npy（numpy 文件）输入 tensorflow 数据管道

Question

Tensorflow 似乎缺少“.npy”文件的阅读器。如何将我的数据文件读入新的 tensorflow.data.Dataset 管道？我的数据不适合内存。

每个对象都保存在一个单独的“.npy”文件中。每个文件包含 2 个不同的 ndarrays 作为特征和一个标量作为它们的标签。

score 20 · Accepted Answer

您可以使用 tf.py_func 来完成，请参见此处的示例。解析函数将简单地将文件名从字节解码为字符串并调用 np.load。

更新：是这样的：

def read_npy_file(item):
    data = np.load(item.decode())
    return data.astype(np.float32)

file_list = ['/foo/bar.npy', '/foo/baz.npy']

dataset = tf.data.Dataset.from_tensor_slices(file_list)

dataset = dataset.map(
        lambda item: tuple(tf.py_func(read_npy_file, [item], [tf.float32,])))

score 20 · Accepted Answer

实际上可以使用 TensorFlow 而不是 TFRecords 直接读取 NPY 文件。关键部分是tf.data.FixedLengthRecordDataset和tf.io.decode_raw，以及查看NPY 格式的文档。为简单起见，假设(N, K)给定一个包含形状数组的 float32 NPY 文件，并且您事先知道特征的数量K，以及它是一个 float32 数组的事实。NPY 文件只是一个带有小标题的二进制文件，后跟原始数组数据（对象数组不同，但我们现在正在考虑数字）。简而言之，您可以使用以下函数找到此标头的大小：

def npy_header_offset(npy_path):
    with open(str(npy_path), 'rb') as f:
        if f.read(6) != b'\x93NUMPY':
            raise ValueError('Invalid NPY file.')
        version_major, version_minor = f.read(2)
        if version_major == 1:
            header_len_size = 2
        elif version_major == 2:
            header_len_size = 4
        else:
            raise ValueError('Unknown NPY file version {}.{}.'.format(version_major, version_minor))
        header_len = sum(b << (8 * i) for i, b in enumerate(f.read(header_len_size)))
        header = f.read(header_len)
        if not header.endswith(b'\n'):
            raise ValueError('Invalid NPY file.')
        return f.tell()

有了这个，你可以创建一个这样的数据集：

import tensorflow as tf

npy_file = 'my_file.npy'
num_features = ...
dtype = tf.float32
header_offset = npy_header_offset(npy_file)
dataset = tf.data.FixedLengthRecordDataset([npy_file], num_features * dtype.size, header_bytes=header_offset)

该数据集的每个元素都包含一长串表示单个示例的字节。您现在可以对其进行解码以获得实际数组：

dataset = dataset.map(lambda s: tf.io.decode_raw(s, dtype))

不过，这些元素的形状是不确定的，因为 TensorFlow 不会跟踪字符串的长度。由于您知道特征的数量，因此您可以强制执行形状：

dataset = dataset.map(lambda s: tf.reshape(tf.io.decode_raw(s, dtype), (num_features,)))

同样，您可以选择在批处理后执行此步骤，或者以您喜欢的任何方式组合它。

限制是您必须提前知道功能的数量。不过，可以从 NumPy 标头中提取它，只是有点麻烦，而且在任何情况下都很难从 TensorFlow 中提取，因此需要提前知道文件名。另一个限制是，实际上，该解决方案要求您要么每个数据集仅使用一个文件，要么使用具有相同标头大小的文件，尽管如果您知道所有数组具有相同的大小，那么实际上应该是这种情况。

诚然，如果考虑这种方法，最好有一个没有标题的纯二进制文件，或者硬编码特征的数量，或者从不同的来源读取它们......

score 17 · Accepted Answer

您的数据是否适合内存？如果是这样，您可以按照文档的Consuming NumPy Arrays部分中的说明进行操作：

使用 NumPy 数组

如果所有输入数据都适合内存，那么从它们创建数据集的最简单方法是将它们转换为 tf.Tensor 对象并使用 Dataset.from_tensor_slices()。

# Load the training data into two NumPy arrays, for example using `np.load()`.
with np.load("/var/data/training_data.npy") as data:
  features = data["features"]
  labels = data["labels"]

# Assume that each row of `features` corresponds to the same row as `labels`.
assert features.shape[0] == labels.shape[0]

dataset = tf.data.Dataset.from_tensor_slices((features, labels))

在文件不适合内存的情况下，似乎唯一推荐的方法是首先将npy数据转换为TFRecord格式，然后使用TFRecord数据集格式，该格式可以流式传输而无需完全加载到内存中。

这是一个带有一些说明的帖子。

FWIW，对我来说，TFRecord不能直接用 npy 文件的目录名或文件名实例化似乎很疯狂，但这似乎是普通 Tensorflow 的限制。

如果您可以将单个大型 npy 文件拆分为较小的文件，每个文件大致代表一个批次进行训练，那么您可以在 Keras 中编写一个自定义数据生成器，它只会产生当前批次所需的数据。

一般来说，如果您的数据集无法放入内存，将其存储为一个大的 npy 文件会使其非常难以处理，最好先将数据重新格式化为 TFRecord 或多个 npy 文件，然后使用其他方法.

score 1 · Accepted Answer

问题设置

我有一个包含图像的文件夹，这些图像被输入到 InceptionV3 模型中以提取特征。这似乎是整个过程的一个巨大瓶颈。作为一种解决方法，我从每个图像中提取特征，然后以某种.npy格式将它们存储在磁盘上。

现在我有两个文件夹，一个用于图像，一个用于相应.npy文件。在管道中加载.npy文件存在明显问题。tf.data.Dataset

解决方法

我遇到了 TensorFlow 的关于展会参加的官方教程，并告诉我哪个对这个线程（和我）遇到的问题有很好的解决方法。

加载 numpy 文件

首先，我们需要创建一个接受.npy文件名并返回 numpy 数组的映射函数。

# Load the numpy files
def map_func(feature_path):
  feature = np.load(feature_path)
  return feature

使用`tf.numpy_function`

有了它，tf.numpy_function我们可以包装任何 python 函数并将其用作 TensorFlow 操作。该函数必须接受 numpy 对象（这正是我们想要的）。

我们创建一个tf.data.Dataset包含所有.npy文件名的列表。

dataset = tf.data.Dataset.from_tensor_slices(feature_paths)

然后我们使用 API 的map功能tf.data.Dataset来完成剩下的任务。

# Use map to load the numpy files in parallel
dataset = dataset.map(lambda item: tf.numpy_function(
          map_func, [item], tf.float16),
          num_parallel_calls=tf.data.AUTOTUNE)

numpy - 将 .npy（numpy 文件）输入 tensorflow 数据管道

4 回答 4

问题设置

解决方法

加载 numpy 文件

使用tf.numpy_function

Related

Reference

使用`tf.numpy_function`