“batching”的相关标签问题_Stack Overflow中文网

0 投票

3 回答

3583 浏览

java - Hibernate：即使我在配置文件中设置了 batch_size，为什么还要手动刷新（）？

我正在学习使用java的hibernate 5.2.10。我从一些在线教程开始，但面临以下问题。

在使用批处理时，我看到的所有教程都首先hibernate.jdbc.batch_size在配置文件中设置。之后的代码与此类似：

为什么我要flush()手动clear()操作？hibernate.jdbc.batch_size既然我已经在配置文件中设置了，这不是应该由休眠自动完成的吗？

对我来说，我似乎是在手动批处理我的操作，那么为什么我必须设置hibernate.jdbc.batch_sizethen 的值呢？

2017-07-10T08:58:34.403

0 投票

1 回答

187 浏览

java - 生成多对一映射的算法/哈希函数

我正在寻找可用于从整数流中生成批次的哈希函数。具体来说，我想将整数xi从一个集合或流（比如X）映射到另一组整数或字符串（比如Y），以便将许多xi映射到一个yj。在这样做的同时，我想确保有 at maxn xi映射到单个yj. 与散列一样，我需要能够可靠地找到y给定的x.

我想确保大多数映射到它们的数量yj接近（以避免从to非常稀疏的映射）。nxiXY

我能想到的一个函数是商：

对于连续整数流，它可以很好地工作。例如流 1..9 将被映射到

等等。但是，对于非连续的大整数和小批量（我的用例），这可以生成超稀疏映射（每个批次大部分时间只有 1 个元素）。

是否有任何标准方法来生成这样的映射（批处理）

java algorithm hash batching

2017-07-19T06:40:47.470

0 投票

1 回答

1626 浏览

node.js - 使用异步在 Node.js 中批量处理并行 HTTP 请求

我的代码结构大致如下：

line-by-line我用模块实现了输入流。我的问题是，一旦我的代码开始运行 30 秒左右，就会ECONNREFUSED出现ECONNRESET错误，我认为这是因为我的所有 TCP 连接都超载（所有 HTTP 请求都转到 localhost 服务器）。我必须阅读的文本文件有大约 200,000 行，这绝对无济于事。

有什么方法可以批量处理线路和HTTP请求，等到所有请求都通过并成功返回，这样我的TCP套接字就不会超载了？
提前感谢您的任何帮助和建议。

node.js httprequest async.js batching

user5835083

2017-07-20T10:55:17.713

0 投票

1 回答

202 浏览

tensorflow - 张量流连续文本序列到序列。为什么要分批？

我正在构建一个序列到序列的莎士比亚预测器，并查看它似乎以 50 个字符为一组进行批处理的示例代码。我对此有点困惑。如果文本是连续的并且您正在处理 50 个字符的块，那么这肯定意味着您只会根据第 50 个字符之后的下一个预期字符来计算损失，并且模型永远不会针对下一个预期字符进行训练其他 49 个字符。换句话说，如果你有 1000 个字符和 20 组 50 个字符，那么它只会被教导预测 20 个不同的字符。这些批次不应该在每个时期移动一个随机偏移量，以便它学习如何预测其他字符吗？

这肯定不对吧？在我的理解中，我在这里缺少什么？

此外，批次是否总是按顺序处理？当状态被推进以表示先前的序列时，这当然很重要。

谢谢雷

7/24 更新：这是原始代码...

据我所见，它似乎没有重叠，但我是 Python 的新手，所以可能会遗漏一些东西。

tensorflow batching rnn sequence-to-sequence

2017-07-22T14:25:33.167

0 投票

0 回答

16 浏览

conv-neural-network - Convnets：我们是否有单独的批量图像激活图

我知道，如果我们将形状 [6,128] 的图像输入到卷积层，每个卷积层有 5 个形状 [3,128] 且 S=1 和 P=0 的过滤器，那么该层将有 5 个激活图作为输出..每个地图的形状为 [4,1]

但是当我们使用批处理时输出的地图数量呢？

我的意思是，如果我们使用大小为 2 个图像（每个形状 [6,128]）的批次作为卷积层的输入，每个卷积层有 5 个过滤器，每个形状 [3,128]，S=1 和 P=0，那么会有10 个激活图作为图层的输出而不是 5 个（批次中的每个图像都有 5 个图）？？或者我们也会有 5 张地图，但每个地图都是 shape[2,4,1] ???

我认为将有 10 张地图，因为如果我们应用最大池化，我们想从每个图像中独立选择最大值，对吧？所以每个图像必须有与另一个图像的地图不同的地图..

conv-neural-network batching

2017-08-11T07:35:17.610

0 投票

1 回答

145 浏览

python - Tensorflow - 批处理问题

我对 tensorflow 很陌生，我正在尝试使用批处理从我的 csv 文件中进行训练。

这是我用于读取 csv 文件并进行批处理的代码

这是培训：

这是我的问题：

1.

我的 csv 文件有 2193 条记录，我的批处理大小是 100。所以我想要的是：在每个 'epoch' 中，从 'first record' 开始，训练 21 批 100 条记录，最后 1 批 93 条记录。所以总共22批。

但是，我发现每批都有 100 个大小 - 即使是最后一个。此外，它不是从第二个“纪元”开始的“第一条记录”。

2.

如何获取记录大小（在本例中为 2193）？我应该硬编码吗？或者还有其他聪明的方法吗？我使用了tendor.get_shape().as_list() 但它不适用于batch_xs。它只是返回我空的形状 []。

python csv tensorflow batching

2017-10-04T13:14:02.260

0 投票

1 回答

783 浏览

multithreading - 张量流队列未关闭。tf.train.start_queue_runners(sess) 的问题

在运行测试 CNN 时，我在尝试使用关闭会话sess.close()或请求脚趾协调器停止并收集线程时总是遇到此错误。显然，会话试图在仍有线程运行时关闭。我只是找不到阻止这种情况发生的方法。或者，如果有更好/正确的方法在张量流中使用队列和线程......

提前致谢！

总有一堆：

其次是：

以下是根据 tf 手册和 GitHub 中的示例编写的代码：

multithreading tensorflow queue batching

2017-10-24T21:23:25.843

0 投票

2 回答

2197 浏览

apache-spark - 火花。将 RDD 拆分为批次

我有 RDD，其中每条记录都是 int：

我需要做的就是将这个 RDD 分成多个批次。即制作另一个 RDD，其中每个元素都是固定大小的元素列表：

这听起来微不足道，但是，我在过去几天感到困惑，除了以下解决方案之外找不到任何东西：

使用 ZipWithIndex 枚举 RDD 中的记录：

[0,1,2,3,4,5] -> [(0, 0),(1, 1),(2, 2),(3, 3),(4, 4),(5, 5)]
使用 map() 迭代这个 RDD 并计算索引index = int(index / batchSize)

[1,2,3,4,5,6] -> [(0, 0),(0, 1),(0, 2),(1, 3),(1, 4),(1, 5)]
然后按生成的索引分组。

[(0, [0,1,2]), (1, [3,4,5])]

这会给我我需要的东西，但是，我不想在这里使用 group by。当您使用普通的 Map Reduce 或 Apache Crunch 之类的抽象时，这很简单。但是有没有办法在 Spark 中产生类似的结果而不使用大量的 group by？

apache-spark rdd batching

2017-11-13T14:00:40.180

0 投票

1 回答

916 浏览

python - 使用 tf.data.Dataset api 读取 TFRecords 会增加计算时间

我的数据在一个tfrecords文件中。tf.data.Dataset这个简单的代码使用api迭代和批处理图像。然而，每 100 个批次的计算时间增加了。为什么会这样以及如何解决这个问题？

这将输出以下时间：

tfrecords 文件包含 MNIST 图像，使用来自 Tensorflow 文档的 HowTo编写

为了缩小问题范围，我复制了从磁盘读取原始图像的代码。在这种情况下，每 200 个批次的时间按预期保持不变。

现在我的问题是：

代码的哪一部分增加了计算时间？
我应该将此作为 TensorFlow github 中的错误提交吗？

解决了！

回答我自己的问题：移出get_next()循环

python tensorflow batching

2017-11-14T10:34:05.753

0 投票

1 回答

60 浏览

tensorflow - 没有额外无维度的张量流批处理？

是否可以在 tensorflow 中进行批处理而不将占位符大小扩展为 None 的额外维度？具体来说，我只想通过 feed_dict 通过占位符提供多个样本。我正在处理的代码库需要对代码进行大量更改，以便为批量大小添加额外的维度。

例如：sess.run(feed_dict={var1:val1values, var2: val2values, ...})

其中 val1values 将代表一批大小 X 而不仅仅是一个训练样本。

tensorflow batching

2017-11-22T21:47:31.243

问题标签 [batching]

Reference