python - 使用 Datasets 使用 Numpy 数组

Question

我正在尝试在图表中使用 Numpy 数组，使用数据集输入数据。

我已经通读了这个，但不太明白我应该如何在数据集中提供占位符数组。

如果我们举一个简单的例子，我会从：

A = np.arange(4)
B = np.arange(10, 14)

a = tf.placeholder(tf.float32, [None])
b = tf.placeholder(tf.float32, [None])
c = tf.add(a, b)

with tf.Session() as sess:
    for i in range(10):
        x = sess.run(c, feed_dict={a: A, b:B})
        print(i, x)

然后我尝试修改它以使用数据集，如下所示：

A = np.arange(4)
B = np.arange(10, 14)

a = tf.placeholder(tf.int32, A.shape)
b = tf.placeholder(tf.int32, B.shape)
c = tf.add(a, b)

dataset = tf.data.Dataset.from_tensors((a, b))

iterator = dataset.make_initializable_iterator()

with tf.Session() as sess3:
    sess3.run(tf.global_variables_initializer())
    sess3.run(iterator.initializer, feed_dict={a: A, b: B})

    for i in range(10):
        x = sess3.run(c)
        print(i, x)

如果我运行它，我会得到“InvalidArgumentError：您必须为占位符张量提供一个值......”

直到 for 循环的代码模仿了这里的示例，但我不明白如何在不为每次调用 sess3.run(c) 的情况下使用占位符 a 和 b [这将是昂贵的] 的情况下使用占位符。我怀疑我必须以某种方式使用迭代器，但我不明白如何。

更新

在选择示例时，我似乎过于简单化了。我真正想做的是在训练神经网络或类似网络时使用数据集。

对于一个更明智的问题，我将如何使用数据集来提供下面的占位符（尽管想象 X 和 Y_true 更长......）。文档将我带到循环开始的地方，然后我不确定。

X = np.arange(8.).reshape(4, 2)
Y_true = np.array([0, 0, 1, 1])

x = tf.placeholder(tf.float32, [None, 2], name='x')
y_true = tf.placeholder(tf.float32, [None], name='y_true')

w = tf.Variable(np.random.randn(2, 1), name='w', dtype=tf.float32)

y = tf.squeeze(tf.matmul(x, w), name='y')

loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(
                                labels=y_true, logits=y),
                                name='x_entropy')

# set optimiser
optimiser = tf.train.AdamOptimizer().minimize(loss)

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())

    for i in range(100):
        _, loss_out = sess.run([optimiser, loss], feed_dict={x: X, y_true:Y_true})
        print(i, loss_out)

尝试以下只会给我一个 InvalidArgumentError

X = np.arange(8.).reshape(4, 2)
Y_true = np.array([0, 0, 1, 1])

x = tf.placeholder(tf.float32, [None, 2], name='x')
y_true = tf.placeholder(tf.float32, [None], name='y_true')

dataset = tf.data.Dataset.from_tensor_slices((x, y_true))
iterator = dataset.make_initializable_iterator()

w = tf.Variable(np.random.randn(2, 1), name='w', dtype=tf.float32)

y = tf.squeeze(tf.matmul(x, w), name='y')

loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(
                                labels=y_true, logits=y),
                                name='x_entropy')

# set optimiser
optimiser = tf.train.AdamOptimizer().minimize(loss)

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())

    sess.run(iterator.initializer, feed_dict={x: X,
                                              y_true: Y_true})

    for i in range(100):
        _, loss_out = sess.run([optimiser, loss])
        print(i, loss_out)

score 4 · Accepted Answer

用于iterator.get_next()从以下位置获取元素Dataset：

next_element = iterator.get_next()

比初始化迭代器

sess.run(iterator.initializer, feed_dict={a:A, b:B})

并至少从Dataset

value = sess.run(next_element)

编辑：

上面的代码只是从Dataset. 数据集 API 旨在为提供服务，features因此所有用于预处理的额外计算都应在数据集 API 中执行。如果要添加元素，则应定义应用于元素的函数，例如：labelsinput_fn

def add_fn(exp1, exp2):
  return tf.add(exp1, exp2)

并且您可以将这些函数映射到您的数据集：

dataset = dataset.map(add_fn)

完整的代码示例：

A = np.arange(4)
B = np.arange(10, 14)
a = tf.placeholder(tf.int32, A.shape)
b = tf.placeholder(tf.int32, B.shape)
#c = tf.add(a, b)
def add_fn(exp1, exp2):
  return tf.add(exp1, exp2)
dataset = tf.data.Dataset.from_tensors((a, b))
dataset = dataset.map(add_fn)
iterator = dataset.make_initializable_iterator()
next_element = iterator.get_next()
with tf.Session() as sess:
  sess.run(iterator.initializer, feed_dict={a: A, b: B})
  # just one element at dataset
  x = sess.run(next_element)
  print(x)

score 2 · Accepted Answer

您更复杂的示例中的问题是您使用相同的tf.placeholder()节点作为输入Dataset.from_tensor_slices()（这是正确的）和网络本身（导致。相反，正如 JEK 在他们的回答InvalidArgumentError中指出的那样，您应该将其用作输入您的网络，如下所示（请注意，我添加了一些其他修复程序以使代码按原样运行）：iterator.get_next()

X = np.arange(8.).reshape(4, 2)
Y_true = np.array([0, 0, 1, 1])

x = tf.placeholder(tf.float32, [None, 2], name='x')
y_true = tf.placeholder(tf.float32, [None], name='y_true')

dataset = tf.data.Dataset.from_tensor_slices((x, y_true))

# You will need to repeat the input (which has 4 elements) to be able to take
# 100 steps.
dataset = dataset.repeat()

iterator = dataset.make_initializable_iterator()

# Use `iterator.get_next()` to create tensors that will consume values from the
# dataset.
x_next, y_true_next = iterator.get_next()

w = tf.Variable(np.random.randn(2, 1), name='w', dtype=tf.float32)

# The `x_next` tensor is a vector (i.e. a row of `X`), so you will need to
# convert it to a matrix or apply batching in the dataset to make it work with
# `tf.matmul()`
x_next = tf.expand_dims(x_next, 0)

y = tf.squeeze(tf.matmul(x_next, w), name='y')  # Use `x_next` here.

loss = tf.reduce_mean(
    tf.nn.sigmoid_cross_entropy_with_logits(
        labels=y_true_next, logits=y),  # Use `y_true_next` here.
    name='x_entropy')

# set optimiser
optimiser = tf.train.AdamOptimizer().minimize(loss)

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())

    sess.run(iterator.initializer, feed_dict={x: X,
                                              y_true: Y_true})

    for i in range(100):
        _, loss_out = sess.run([optimiser, loss])
        print(i, loss_out)

python - 使用 Datasets 使用 Numpy 数组

2 回答 2

Related

Reference