问题标签 [batch-processing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
894 浏览

sql - 在 Hadoop MapReduce 中缓存地图应用程序?

从数据流的角度来看 MapReduce 和 HBase 的组合,我的问题似乎很合适。我有大量文档要映射、合并和缩减。我之前的 SQL 实现是将任务拆分为批处理操作,将 Map 的结果累积存储到表中,然后执行相当于 reduce 的操作。这样做的好处是,在执行期间(或执行之间)的任何时候,我都可以在那个时间点获得 Map 的结果。

据我了解,将此作业作为 MapReduce 运行需要每次运行所有 Map 函数。

我的 Map 函数(实际上是任何函数)总是为给定的输入提供相同的输出。如果我不需要,重新计算输出根本没有意义。我的输入(一组文档)将不断增长,我将定期对数据运行 MapReduce 操作。在执行之间,我应该只需要为新添加的文档计算 Map 函数。

我的数据可能是 HBase -> MapReduce -> HBase。鉴于 Hadoop 是一个完整的生态系统,它可能能够知道给定函数已应用于具有给定标识的行。我假设 HBase 表中的条目是不可变的。Hadoop 是否/可以考虑到这一点?

我从文档(尤其是 Cloudera 视频)中了解到,重新计算(潜在冗余数据)可能比针对 Hadoop 正在用于处理的问题类别进行持久化和检索更快。

有什么意见/答案吗?

0 投票
3 回答
999 浏览

c# - 确定基于批处理的软件应用程序的系统要求(硬件、处理器和内存)

我的任务是构建一个应用程序,其中业务用户将定义许多用于数据操作和处理的规则(例如,取一个数值并将其平均分配给根据规则中指定的条件选择的多个记录) .

每月必须运行一个批处理应用程序,以便按照定义的规则处理大约 50 万条记录。每条记录大约有 100 个字段。环境是带有第三方规则引擎的 .NET、C# 和 SQL 服务器

如果要求在大约 8 到 10 小时的时间范围内处理记录,您能否建议如何定义和/或确定最适合哪种硬件。如果用户想要根据硬件成本增加或减少时间范围,规格将如何变化?

提前致谢

艾比

0 投票
1 回答
42 浏览

stored-procedures - 是否可以有一个无状态的定时功能

我正在尝试在系统中设置提醒以在特定时间触发。

这是一个基于网络的应用程序,所以它不会一直在内存中。

理想情况下,我想避免在服务器上使用服务或作业(主要是出于好奇,看看是否有更有效的方法来做到这一点)

例如,想象一下有多少 Ebay 竞标一直在不断结束,并且电子邮件发送的时间似乎完美无缺。

人们是否发现只是一个大循环一遍又一遍,将项目移动到队列中等等......或者是否有一些较低级别的帮助(存储过程,触发器等)

谢谢大家。

0 投票
13 回答
4368 浏览

python - 散列多个文件

问题规范:

给定一个目录,我想遍历该目录及其非隐藏子目录,
 并将漩涡哈希添加到非隐藏文件的名称中。
如果重新运行脚本,它将用新的哈希替换旧的哈希。

<filename>.<extension>   ==>  <filename>.<a-whirlpool-hash>.<extension>

<filename>.<old-hash>.<extension>   ==>  <filename>.<new-hash>.<extension>


问题:

a) 你会怎么做?

b) 在您可用的所有方法中,您的方法最适合的是什么?


判决:

谢谢大家,我选择了 SeigeX 的答案是因为它的速度和便携性。
它在经验上比其他 bash 变体更快,
 并且它在我的 Mac OS X 机器上无需改动即可工作。

0 投票
3 回答
22013 浏览

c# - 如何使用 Nhibernate 删除多个数据库实体?

这个问题的最佳实践是什么?有内置的批处理功能吗?

示例代码:

提前致谢。

0 投票
1 回答
2846 浏览

matlab - 在 MATLAB 中批量处理图像文件

我是 MATLAB 和图像处理的初学者。

我在尝试使用批处理时遇到了一个问题,希望有人能够启发我。谢谢。

按照 MATLAB 的示例,我做了这些:

因为我想选择感兴趣的区域,

选择 ROI 后,我在编辑器中创建了一个函数:

回到命令窗口,我输入;

出来的数字是我所预料的。

当我尝试遍历图像时,问题就出现了。我不确定我是否做得正确。

按照示例,我在编辑器中创建了另一个函数;

在命令窗口,我输入:

然而,结果并不是我想要的。这不是我想要的投资回报率。谁能帮我这个?非常感谢。

图片1:

替代文字

选择ROI后的图1:

替代文字

0 投票
2 回答
2063 浏览

java - 有哪些方法可以分发异步批处理任务?

我目前正在调查存在哪些 Java 兼容解决方案来满足我的要求,如下所示:

  • 基于定时器/可调度任务到批处理
  • 分布式,并由此提供水平扩展的能力
  • 弹性,请不要使用 SPF

这些任务的性质(大量的 XML 生成,以及交付到基于 Web 的接收节点)意味着使用 Quartz 之类的东西在单个服务器上运行它们是不可行的。

我听说过诸如 Hadoop 和 JavaSpaces 之类的技术,它们有效地解决了问题的扩展性和弹性问题。不知道这些是否非常适合我的要求,很难知道其他技术可能适合什么。

我真的想知道这个领域的人觉得有哪些选择,以及每个人如何发挥自己的优势,或者比其他人更适合某些问题。

NB:值得注意的是,调度能力可能是我们目前做事方式的后遗症。是的,有些任务应该在特定时间完成。它还被用来在没有规定时间的情况下限制吞吐量。

0 投票
1 回答
117 浏览

sql-server-2005 - WCF:通过 SQL 作业有效地消耗大量单例请求?

我计划构建一个控制台应用程序作为 SQL 2005 作业的一部分运行,该作业将从数据库表中收集记录,为 WCF 服务创建请求对象,将此对象传递给服务进行处理,接收响应对象,并使用其数据更新日志表。这将用于在每次作业步骤执行时处理至少数千条记录。

WCF 服务目前公开了一个方法,我会为表中的每条记录点击一次,所以我想我想打开一个服务通道,在处理过程中保持打开状态,然后关闭并处置等完全的。

除了保持连接之外,我还能如何将这个控制台应用程序的性能作为瓶颈最小化?我是否应该不使用控制台应用程序,而是尝试使用 SQLCLR 或其他方式来执行此处理?

0 投票
2 回答
5703 浏览

java - Java JDBC clearBatch() 和堆内存

我注意到以下行为。

我有一个大约 3MB 的文件,其中包含数千行。在行中,我拆分并创建了准备好的语句(大约 250 000 条语句)。

我要做的是:

在最后

内存使用量将增加到 70mb 左右,而不会出现内存不足错误。是否有可能降低内存使用量?并具有事务行为(如果一个失败,所有失败。)。executeBatch我可以通过使用and ...进行提交来降低内存,clearBatch但这会导致总集的部分插入。

0 投票
2 回答
1711 浏览

python - 是否可以使用 Python Youtube API 提交批处理请求?

我正在使用 Python 编写一个应用程序,将视频添加到 Youtube 上用户的播放列表中。一次执行此操作会导致 Youtube 开始限制我的请求。

有一个批处理 API 允许您一次提交 50 个请求,但我无法从文档中找到如何提交批处理请求。关于它的唯一信息包括需要为请求发送的 XML 内容。

有人知道如何提交批处理请求吗?