问题标签 [batch-processing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1106 浏览

ruby-on-rails - rails批处理问题

在我的应用程序中,用户可以将帖子的状态设置为不同的标志,例如“v”-可见、“d”-删除标记等。

这些标志是通过控制器操作设置的。

我有一个批处理过程,可以运行并清理所有标记为删除的帖子。

Post.find(:all, :conditions => ['status = ?', 'd']).each do |p| p.destroy end

此批处理过程每 x 分钟运行一次。

假设用户用'd'标记帖子=>批处理在某些点运行=>在进程运行时用户将帖子标记为'v'。现在在批处理过程中,记录已经成为删除的目标,并且将在 do 循环完成时删除,但标志已通过控制器操作更改。

理想情况下,如果发生这种情况,我不想在批处理过程中删除该帖子。

处理这个问题的最佳方法是什么?

0 投票
1 回答
1919 浏览

batch-file - 批处理文件以减少文件名的长度

我下载这样的文件名.. batchengine-6099-1283555555-60054_20100910_0006.era 并想将它们重命名为 60054_20100910_0006.era。名称改变但格式相同,需要声明重命名所有以 .era 结尾的大文件

0 投票
2 回答
240 浏览

cmd - 使用批量for循环转换和删除多个目录中的音频文件

我想处理多个音频文件。我想要做的是.m4a在目录中获取文件,并为每个文件执行以下操作:

  • faad(它将 .m4p 文件转换为.wave文件,但保留 .m4p 文件)
  • oddenc在新的 .wave 文件上,这将创建一个 .ogg 文件
  • del.m4a文件和文件.wave
  • 移动到.m4a目录中的下一个

我还需要它来处理多个文件夹(递归)。

我有什么作品,但它很乱。如果首先遍历文件夹并在任何地方创建.wave.ogg文件。这意味着在它们被删除之前,我突然将所有.m4ps.wave.oggs 放在同一个文件夹中。它占用了大量空间,我认为必须有一种方法可以转换每个文件并在它进行时将其删除。

这是我到目前为止所拥有的:

但我想要类似的东西:

有没有办法我可以做到这一点?因为上面的代码没有。

0 投票
2 回答
2063 浏览

hibernate - 在休眠中进行批处理的任何样本?

我可以在 java hibernate 中找到批处理的示例,以便我可以在两个表上运行删除查询。

0 投票
2 回答
3124 浏览

image - 使用 BASH 重命名多个按顺序编号的文件并更改编号格式?

我有一堆这种格式的按顺序命名的文件:imageXXX.jpg. 所以它会像image001.jpg和向前一样。我只想保留其中的数字部分,并去掉前面0的 's. 因此,该文件将被命名为1.jpg. 我如何使用 Bash 来实现这一点?

0 投票
2 回答
727 浏览

database-design - Facebook搜索:它有哪些值得关注的技术要求和创新功能?

Facebook 在他们的搜索中加入了一些独特的功能——甚至可能有些是专利的?我所说的功能是由三个不同的要求驱动的:

  1. 事实上,他们的数据库非常庞大,而且他们不能像您一样在需要的时候加入他们需要的数据,通常是在一个少于一百万条记录的单宿主业务应用程序中。
  2. 用户的期望受到其他搜索体验的影响,即谷歌,因此长尾搜索查询是通过将关键字附加到被搜索的人的名字来完成的,例如“佛罗里达州奥兰多”或“扶轮社”(或一些其他识别值,如雇主名称)。
  3. 数据架构似乎很浅,基于我们从应用程序中查看的窗口(当然它并不浅)。我要说的是,除了用户档案中所谓的“基本信息”(例如性别和当前城市)之外,使档案独一无二的许多因素并没有严格地分配给逻辑列。

因此,与数据集大小相关的需求存在复杂性,但需要向用户提供相关结果,向不精通搜索的用户社区提供他们的期望和培训谷歌。

鉴于所有这些(我的问题的改进):

a.) Facebook 需要哪些搜索功能,我们应该注意并在我们自己的搜索应用程序/引擎中部署这些功能?必要时,我的意思是由庞大的数据集驱动,或者由用户的期望驱动,以及网站有机增长和增加其数据之间的关系的需求——我的意思是用户。

b.)哪些搜索功能具有创新性并且值得数据和/或搜索架构师关注?

有些是显而易见的,例如对名字使用同义词——模糊匹配“Bill”查询与“William”记录。您可以在 Solr 中使用同义词列表来执行此操作。我认为这是必要的基本功能,当然不是创新的。

其他创新值得我们关注。我可以提请注意的第一个创新示例是他们的搜索相关性是每个用户自定义的。如果我输入“John Smith”,我会得到与其他搜索者不同的结果集(理论上对我、我网络中的人、朋友的朋友等更匹配)。在您说这不是创新之前,因为您可以在 Google 中只键入“Pizza”,他们会通过将您的语言环境附加到查询中来为您提供相关结果,请继续。我希望对这个问题的回答和讨论,真的会在一些技术要求中形成框架,并提供一些想法,以将其作为搜索功能包括在内。

例如...

  • 你猜他们会运行一个常规的批处理来对数据进行非规范化吗?(即做一个就地一级分离度、二级分离度等链接表的批处理作业)
  • 从这样的批处理或非规范化中,它是否会限制命中数?这可以通过仅返回逻辑上最接近的“John Smith”匹配来证明。但是,非常用名称 [例如我自己的名字和姓氏] 的搜索似乎不受结果限制的影响,并且搜索将环顾世界,完全超出那些“几度”的分离。
  • 他们是否按年龄增加相关性评分,为与搜索者接近同一年龄组的匹配提供更多相关性?(评论:似乎他们应该这样做,这可能至少是不应该发生的代际交流/会议的一个小减速——委婉地说,我知道)

从技术上讲,在后端,最好在数据库级别进行非规范化过程,然后索引“文档”?(澄清:对于那些联合到企业搜索的人来说,“文档”在概念上类似于数据库记录...... MOL)

或者,是否没有数据库非规范化。取而代之的是,编写搜索索引的过程包括将相关信息以及“网络内”或仅相隔几度的人写入每个“文档”中?

当然,有必要对此类信息进行预处理。在我自己没有在实践中做这件事的情况下,在我看来,在数据库级别批量非规范化是有利的,原因是搜索服务器擅长超快速地查找信息,但数据库服务器更擅长获取匹配数据(假设它扩展到不在搜索索引中的相关列)。

因此,扩展依赖于用户搜索者的搜索相关性的概念,请注意它也是用户最近浏览活动的派生。例如,搜索“John Smith Orlando”可能永远不会找到“正确的”John Smith,但在访问了正确的 John Smith 的 Facebook 页面后(假设您在电子邮件中获得了他的 URL),即使没有将 John Smith 添加为朋友,这一次,对 John Smith 的后续搜索实际上将在下一次返回该结果。[我想知道这要多久才能老化,或者它是否会老化?]

我在这里以 Facebook 为例,因为它们很大。它们的大小迫使一个经过深思熟虑的架构——比如什么保持正常形式,什么不能,因为你不能JOIN重复一个 1 亿条记录表(从链接表的另一个“分支”重新加入同一个人表或者派生表可以产生“朋友的朋友”效果)。

相关性调整的实践几乎是一门艺术。数据集、业务规则和用户期望非常独特,以至于几乎不可能创建多用途评分模板,甚至是最佳实践。

话虽如此,通过查看那些在搜索方面做得足够好的大网站,有一种技术可以模仿,不是吗?

Facebook 采用了哪些技术?鉴于它们的规模,它们不能只在用户需要时通过 ORM 获取用户需要的东西(而不是对 ORM 冠军的猛烈抨击)——这需要精心策划的规范化、SQL 级索引、去规范化和搜索服务器索引。

谁能建议那里有哪些技术?就此而言,任何具有类似搜索(和大型数据集)的大型网站也将提供良好的主题建议。

0 投票
0 回答
248 浏览

c# - C# 批处理枚举器

可能重复:
LINQ 分区列表到 8 个成员的列表中。

我有一个IEnumerable<T>,我想将它转换为一个IEnumerable<List<T>>,其中每个 List 是一批项目,其顺序与原始枚举数相同。每个批次的长度应该是batchSize项目,除了最后一批应该包含剩余项目,因此它可能小于batchSize.

底层存储不是数据库或其他存储,我可以将批处理推送到系统的较低级别。相反,我需要自己累积批次,因为它是一个对象流,我一次只能获取一个。

序列很长,获取需要一段时间,所以我无法List<T>提前将整个可枚举打包到一个或数组中。相反,我想获取batchSize结果,然后立即开始处理第一批。

我可能会决定稍后使获取与处理异步(以便处理第 1 批和获取第 2 批可以并行发生)但现在我只是在寻找单线程解决方案。

关于如何高效、优雅地进行这种批处理、流式枚举的任何建议?理想情况下,我想将它打包成一个我可以重复使用的扩展方法,例如

0 投票
1 回答
338 浏览

parallel-processing - LoadLeveler 作业脚本的作业步骤循环?

我正在使用 LoadLeveler 在 IBM/BlueGene 架构上提交作业。我阅读了 IBM 制作的文档并尝试了 Google,但我找不到如何执行以下操作,我希望它应该在那里:

一个可以使用

关键字告诉 LoadLeveler 描述了一个新的工作步骤,所以我可以做类似的事情

但我找不到的是一种类似的方法

我是否必须编写一个“正常”的 shell 脚本,然后多次调用负载级别脚本,或者是否有一些内置的循环机制?我知道其他工作经理可以做到这一点。

0 投票
2 回答
145 浏览

file-io - 将文件分组到新文件夹?

我必须经常复制文件,创建一个新文件夹,然后将这些文件粘贴到新文件夹中。

我想知道我们是否可以制作一个批处理文件或 vbscript 文件来执行此任务?只需选择文件并从上下文菜单中选择“组到新文件夹”。那会很棒!

0 投票
1 回答
1705 浏览

java - ibatis:提高插入性能

我正在为我的 sql insert stmt 使用 ibatis。在我的代码中,我从文件夹中逐行解析文件。符合条件的每一行都需要插入数据库。单次运行程序中的插入总数可以是 200k 左右的任何位置。

这种风格会慢慢占用大量内存,并在一段时间后抛出 OutOfMemory 异常。我怎样才能在这里提高性能?