问题标签 [combiners]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
149 浏览

r - 将列与 NA 合并

我有一个数据框

它看起来像这样:

我希望得到这样的数据:

谢谢!

0 投票
3 回答
3463 浏览

hadoop - shuffle阶段和combiner阶段有什么区别?

我对 MapReduce 框架感到很困惑。我从不同的来源阅读有关此内容感到困惑。顺便说一句,这是我对 MapReduce Job 的想法

基本上是对的?我的意思是,我发现一些消息来源说组合器是洗牌阶段,它基本上按每条记录分组...

0 投票
1 回答
119 浏览

c# - C#将具有计数差异的数组列表组合起来

我正在开发一个可以读取 lilypond 和 midi 文件的音乐应用程序。两种文件类型都需要变成我们自己的存储。

对于 lilypond,您需要阅读重复及其替代方法。但是,计数可能会有所不同。如果有三个重复但有两个备选方案,则前两个重复获得第一个备选方案,第三个备选方案获得最后一个备选方案。

由于重用从前面开始,我不知道该怎么做。我当前的代码看起来像这样,所以唯一缺少的部分是将repeatList 和altList 结合起来。

我希望有一个数学解决方案,因为翻转数组对于性能来说是可悲的。

在上面的代码中,两个列表都填充了注释。它们的功能如下: RepeatList:播放 x 次的基本音符列表 AltList:要添加到重复列表的可能性列表。

一些示例 I/O

  • 重复次数 = 4
  • AltList.Count() = 3

  • 重复 1 得到:Alt 1
  • 重复 2 得到:Alt 1
  • 重复 3 得到:Alt 2
  • 重复 4 得到:Alt 3

视觉风格示例

输入 输出

0 投票
2 回答
24 浏览

sql - 组合来自两个表的两个 SUM 运算

我有两个 SQL 操作(分别正常工作):

`

但问题是我无法将它们结合起来。最终我想要三列作为结果:

  1. StutorSum 列
  2. StudentAssistentSum 列
  3. 两者合计的列

但是我无法做到这一点,我尝试了很多东西,在互联网上搜索,但没有任何效果。

有人可以帮我吗?

问候,乔伦

0 投票
1 回答
52 浏览

r - 如果组合了至少 5 个 ID,则根据变量 ID 组合观测值

上周我发布了以下问题。这个想法是创建一个循环,通过基于变量“id”随机组合观察来确定数据库的内容。

例如:

  • 数据集 1:id 1、2、3、4、5、6、7、8...的组合
  • 数据集 2:id 1、2、3 的组合
  • 数据集 3:id 2、3、4、5 的组合
  • 数据集 4:id 5、6、7、8、9、10 的组合...

我得到了这个问题的完美答案:

但是,我现在的问题如下:有没有办法指定我只想要至少 5 个 id 的组合?这个过程占用了大量的计算时间,我注意到小数据集(少于 5 个不同的 id)给出了有偏差的结果。

通过这个链接,可以找到数据集的样本和完整的代码来重现该示例。请注意,运行整个代码可能需要一段时间,除非有指定的内容我只对至少 5 个 id 的组合感兴趣。

0 投票
1 回答
63 浏览

python - 通过键和值组合多个字典?

经过几个小时和其他帖子的建议,我无法解决我的问题。我必须管理许多字典(直到现在我知道的唯一工作方式)。

对于我要组合的所有四个字典,其中三个具有相同的键(d1、d2 和 d3)。

第四个字典是由包含元数据的参考文件生成的字典,它们的键等于一个值,d1我想要的是创建一个字典,其中包含来自最终字典的信息d1, d2d3之后的信息。d4

并以表格格式打印如下:

目前我有一个肮脏的脚本,但“有效”。

问题是最后 3 行。

由于缺乏深入的知识,简单的建议(对于傻瓜)将不胜感激。

0 投票
0 回答
251 浏览

java - 二次排序之前的 Hadoop 组合器

情况

我正在尝试输出一个倒排索引,其中术语作为键,文档编号:频率作为值。值列表按频率降序排列。理想情况下,我只想用 1 个 Mapreduce 阶段/作业来做到这一点。

我试过的

我的程序现在的工作方式是创建一个复合键(term,docNum=count,freq=1)并创建一个自然值(docNum=count,freq=1)。我从 MAP 传递这些键值对。在组合过程中,我对频率求和并将总和作为复合键和自然值的新频率值传递。最后,在 reduce 阶段,我输出键和值列表。

问题

对于我的复合键,我设置了比较器,以便按降序对频率进行排序。但是,我最初将术语频率作为 1 传递(以便我可以在组合阶段总结它们)。似乎二次排序比较发生在合并之前。不是在对频率求和之后比较频率值,而是在求和之前进行比较。因此,在上面的示例中,将 term2 -> doc2 的频率 1 与 term2 -> doc2 的频率 1 进行比较,而不是将 term2 -> doc2 的频率 3 与 term2 ->doc3 的频率 2 进行比较。

我不知道如何让频率按降序排序。

CompositeKey.java (compareTo)

组合比较器.java

GroupingComparator.java

0 投票
2 回答
450 浏览

java - Java 8 Stream - 减少函数的组合器没有被执行

我正在使用一个带有三个参数的简单 reduce 方法,即。身份,累加器和组合器。这是我的代码...

但是正在发生的事情是组合器没有被执行。我不明白这背后的原因。这是我的输出..

但是,没有编译错误,也没有异常,我的输出完全正确,与我的预期相同。但不明白为什么组合器没有执行。

0 投票
3 回答
41 浏览

sql - 如何将 2 个 SQL 查询合二为一

我有一张如下图所示的表格: 在此处输入图像描述 查询 1:

结果:2017-02-10 (yyyy-MM-dd)

查询 2:

结果:2017-01-02 (yyyy-MM-dd)

我想用 1 个查询显示 2 个结果。请帮我!感谢每一个人!

0 投票
1 回答
901 浏览

hadoop - 什么是 Map Reduce 工作流程?

“hadoop权威指南-汤姆怀特”一书的摘要是:

用户的 map 函数和用户的 reduce 函数之间的所有逻辑都称为 shuffle。然后 Shuffle 跨越 map 和 reduce。在用户的 map() 函数之后,输出在内存循环缓冲区中。当缓冲区满 80% 时,后台线程开始运行。后台线程会将缓冲区的内容输出到溢出文件中。此溢出文件按键分区。并且在每个partition内,key-value对是按key排序的。排序后,如果combiner函数开启,则调用combiner函数。所有溢出文件将合并到一个 MapOutputFile。并且所有 Map 任务的 MapOutputFile 将通过网络收集到 Reduce 任务。减少任务将做另一种排序。然后将调用用户的 Reduce 函数。

所以问题是:

1.)根据上面的总结,这是流程:

Mapper--Partioner--Sort--Combiner--Shuffle--Sort--Reducer--Output

1a.) 这是流程还是其他?

1b.) 你能用一个例子解释一下上面的流程吗?

2.)所以映射器阶段输出是一个大文件(MapOutputFile)?是这个大文件被分解并且键值对被传递到各自的reducer吗?

3.) 当数据在传递到各自的 reducer 时已经排序和组合时,为什么要再次进行排序?

4.) 如果mapper1 在Datanode1 上运行,那么reducer1 是否需要在datanode1 上运行?或者它可以在任何 Datanode 上运行?