问题标签 [batching]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
3583 浏览

java - Hibernate:即使我在配置文件中设置了 batch_size,为什么还要手动刷新()?

我正在学习使用java的hibernate 5.2.10。我从一些在线教程开始,但面临以下问题。

在使用批处理时,我看到的所有教程都首先hibernate.jdbc.batch_size在配置文件中设置。之后的代码与此类似:

为什么我要flush()手动clear()操作?hibernate.jdbc.batch_size既然我已经在配置文件中设置了,这不是应该由休眠自动完成的吗?

对我来说,我似乎是在手动批处理我的操作,那么为什么我必须设置hibernate.jdbc.batch_sizethen 的值呢?

0 投票
1 回答
187 浏览

java - 生成多对一映射的算法/哈希函数

我正在寻找可用于从整数流中生成批次的哈希函数。具体来说,我想将整数xi从一个集合或流(比如X)映射到另一组整数或字符串(比如Y),以便将许多xi映射到一个yj。在这样做的同时,我想确保有 at maxn xi映射到单个yj. 与散列一样,我需要能够可靠地找到y给定的x.

我想确保大多数映射到它们的数量yj接近(以避免从to非常稀疏的映射)。nxiXY

我能想到的一个函数是商:

对于连续整数流,它可以很好地工作。例如流 1..9 将被映射到

等等。但是,对于非连续的大整数和小批量(我的用例),这可以生成超稀疏映射(每个批次大部分时间只有 1 个元素)。

是否有任何标准方法来生成这样的映射(批处理)

0 投票
1 回答
1626 浏览

node.js - 使用异步在 Node.js 中批量处理并行 HTTP 请求

我的代码结构大致如下:

line-by-line我用模块实现了输入流。我的问题是,一旦我的代码开始运行 30 秒左右,就会ECONNREFUSED出现ECONNRESET错误,我认为这是因为我的所有 TCP 连接都超载(所有 HTTP 请求都转到 localhost 服务器)。我必须阅读的文本文件有大约 200,000 行,这绝对无济于事。

有什么方法可以批量处理线路和HTTP请求,等到所有请求都通过并成功返回,这样我的TCP套接字就不会超载了?
提前感谢您的任何帮助和建议。

0 投票
1 回答
202 浏览

tensorflow - 张量流连续文本序列到序列。为什么要分批?

我正在构建一个序列到序列的莎士比亚预测器,并查看它似乎以 50 个字符为一组进行批处理的示例代码。我对此有点困惑。如果文本是连续的并且您正在处理 50 个字符的块,那么这肯定意味着您只会根据第 50 个字符之后的下一个预期字符来计算损失,并且模型永远不会针对下一个预期字符进行训练其他 49 个字符。换句话说,如果你有 1000 个字符和 20 组 50 个字符,那么它只会被教导预测 20 个不同的字符。这些批次不应该在每个时期移动一个随机偏移量,以便它学习如何预测其他字符吗?

这肯定不对吧?在我的理解中,我在这里缺少什么?

此外,批次是否总是按顺序处理?当状态被推进以表示先前的序列时,这当然很重要。

谢谢雷

7/24 更新:这是原始代码...

据我所见,它似乎没有重叠,但我是 Python 的新手,所以可能会遗漏一些东西。

0 投票
0 回答
16 浏览

conv-neural-network - Convnets:我们是否有单独的批量图像激活图

我知道,如果我们将形状 [6,128] 的图像输入到卷积层,每个卷积层有 5 个形状 [3,128] 且 S=1 和 P=0 的过滤器,那么该层将有 5 个激活图作为输出..每个地图的形状为 [4,1]

但是当我们使用批处理时输出的地图数量呢?

我的意思是,如果我们使用大小为 2 个图像(每个形状 [6,128])的批次作为卷积层的输入,每个卷积层有 5 个过滤器,每个形状 [3,128],S=1 和 P=0,那么会有10 个激活图作为图层的输出而不是 5 个(批次中的每个图像都有 5 个图)??或者我们也会有 5 张地图,但每个地图都是 shape[2,4,1] ???

我认为将有 10 张地图,因为如果我们应用最大池化,我们想从每个图像中独立选择最大值,对吧?所以每个图像必须有与另一个图像的地图不同的地图..

0 投票
1 回答
145 浏览

python - Tensorflow - 批处理问题

我对 tensorflow 很陌生,我正在尝试使用批处理从我的 csv 文件中进行训练。

这是我用于读取 csv 文件并进行批处理的代码

这是培训:

这是我的问题:

1.

我的 csv 文件有 2193 条记录,我的批处理大小是 100。所以我想要的是:在每个 'epoch' 中,从 'first record' 开始,训练 21 批 100 条记录,最后 1 批 93 条记录。所以总共22批。

但是,我发现每批都有 100 个大小 - 即使是最后一个。此外,它不是从第二个“纪元”开始的“第一条记录”。

2.

如何获取记录大小(在本例中为 2193)?我应该硬编码吗?或者还有其他聪明的方法吗?我使用了tendor.get_shape().as_list() 但它不适用于batch_xs。它只是返回我空的形状 []。

0 投票
1 回答
783 浏览

multithreading - 张量流队列未关闭。tf.train.start_queue_runners(sess) 的问题

在运行测试 CNN 时,我在尝试使用 关闭会话sess.close()或请求脚趾协调器停止并收集线程时总是遇到此错误。显然,会话试图在仍有线程运行时关闭。我只是找不到阻止这种情况发生的方法。或者,如果有更好/正确的方法在张量流中使用队列和线程......

提前致谢!

总有一堆:

其次是:

以下是根据 tf 手册和 GitHub 中的示例编写的代码:

0 投票
2 回答
2197 浏览

apache-spark - 火花。将 RDD 拆分为批次

我有 RDD,其中每条记录都是 int:

我需要做的就是将这个 RDD 分成多个批次。即制作另一个 RDD,其中每个元素都是固定大小的元素列表:

这听起来微不足道,但是,我在过去几天感到困惑,除了以下解决方案之外找不到任何东西:

  1. 使用 ZipWithIndex 枚举 RDD 中的记录:

    [0,1,2,3,4,5] -> [(0, 0),(1, 1),(2, 2),(3, 3),(4, 4),(5, 5)]

  2. 使用 map() 迭代这个 RDD 并计算索引index = int(index / batchSize)

    [1,2,3,4,5,6] -> [(0, 0),(0, 1),(0, 2),(1, 3),(1, 4),(1, 5)]

  3. 然后按生成的索引分组。

    [(0, [0,1,2]), (1, [3,4,5])]

这会给我我需要的东西,但是,我不想在这里使用 group by。当您使用普通的 Map Reduce 或 Apache Crunch 之类的抽象时,这很简单。但是有没有办法在 Spark 中产生类似的结果而不使用大量的 group by?

0 投票
1 回答
916 浏览

python - 使用 tf.data.Dataset api 读取 TFRecords 会增加计算时间

我的数据在一个tfrecords文件中。tf.data.Dataset这个简单的代码使用api迭代和批处理图像。然而,每 100 个批次的计算时间增加了。为什么会这样以及如何解决这个问题?

这将输出以下时间:

tfrecords 文件包含 MNIST 图像,使用来自 Tensorflow 文档的 HowTo编写

为了缩小问题范围,我复制了从磁盘读取原始图像的代码。在这种情况下,每 200 个批次的时间按预期保持不变。

现在我的问题是:

  • 代码的哪一部分增加了计算时间?
  • 我应该将此作为 TensorFlow github 中的错误提交吗?

解决了!

回答我自己的问题:移出get_next()循环

0 投票
1 回答
60 浏览

tensorflow - 没有额外无维度的张量流批处理?

是否可以在 tensorflow 中进行批处理而不将占位符大小扩展为 None 的额外维度?具体来说,我只想通过 feed_dict 通过占位符提供多个样本。我正在处理的代码库需要对代码进行大量更改,以便为批量大小添加额外的维度。

例如:sess.run(feed_dict={var1:val1values, var2: val2values, ...})

其中 val1values 将代表一批大小 X 而不仅仅是一个训练样本。