“combiners”的相关标签问题

0 投票

3 回答

149 浏览

r - 将列与 NA 合并

我有一个数据框

它看起来像这样：

我希望得到这样的数据：

谢谢！

r merge combiners

2016-08-30T21:09:05.130

0 投票

3 回答

3463 浏览

hadoop - shuffle阶段和combiner阶段有什么区别？

我对 MapReduce 框架感到很困惑。我从不同的来源阅读有关此内容感到困惑。顺便说一句，这是我对 MapReduce Job 的想法

基本上是对的？我的意思是，我发现一些消息来源说组合器是洗牌阶段，它基本上按每条记录分组...

hadoop mapreduce combiners partitioner

2016-10-06T10:09:30.820

0 投票

1 回答

119 浏览

c# - C#将具有计数差异的数组列表组合起来

我正在开发一个可以读取 lilypond 和 midi 文件的音乐应用程序。两种文件类型都需要变成我们自己的存储。

对于 lilypond，您需要阅读重复及其替代方法。但是，计数可能会有所不同。如果有三个重复但有两个备选方案，则前两个重复获得第一个备选方案，第三个备选方案获得最后一个备选方案。

由于重用从前面开始，我不知道该怎么做。我当前的代码看起来像这样，所以唯一缺少的部分是将repeatList 和altList 结合起来。

我希望有一个数学解决方案，因为翻转数组对于性能来说是可悲的。

在上面的代码中，两个列表都填充了注释。它们的功能如下： RepeatList：播放 x 次的基本音符列表 AltList：要添加到重复列表的可能性列表。

一些示例 I/O

重复次数 = 4
AltList.Count() = 3

重复 1 得到：Alt 1
重复 2 得到：Alt 1
重复 3 得到：Alt 2
重复 4 得到：Alt 3

视觉风格示例

c#math combiners

2016-10-13T09:39:32.900

0 投票

2 回答

24 浏览

sql - 组合来自两个表的两个 SUM 运算

我有两个 SQL 操作（分别正常工作）：

`

但问题是我无法将它们结合起来。最终我想要三列作为结果：

StutorSum 列
StudentAssistentSum 列
两者合计的列

但是我无法做到这一点，我尝试了很多东西，在互联网上搜索，但没有任何效果。

有人可以帮我吗？

问候，乔伦

sql combiners

2016-11-01T22:53:40.817

0 投票

1 回答

52 浏览

r - 如果组合了至少 5 个 ID，则根据变量 ID 组合观测值

上周我发布了以下问题。这个想法是创建一个循环，通过基于变量“id”随机组合观察来确定数据库的内容。

例如：

数据集 1：id 1、2、3、4、5、6、7、8...的组合
数据集 2：id 1、2、3 的组合
数据集 3：id 2、3、4、5 的组合
数据集 4：id 5、6、7、8、9、10 的组合...

我得到了这个问题的完美答案：

但是，我现在的问题如下：有没有办法指定我只想要至少 5 个 id 的组合？这个过程占用了大量的计算时间，我注意到小数据集（少于 5 个不同的 id）给出了有偏差的结果。

通过这个链接，可以找到数据集的样本和完整的代码来重现该示例。请注意，运行整个代码可能需要一段时间，除非有指定的内容我只对至少 5 个 id 的组合感兴趣。

r loops dataframe combiners

2016-11-16T15:32:39.847

0 投票

1 回答

63 浏览

python - 通过键和值组合多个字典？

经过几个小时和其他帖子的建议，我无法解决我的问题。我必须管理许多字典（直到现在我知道的唯一工作方式）。

对于我要组合的所有四个字典，其中三个具有相同的键（d1、d2 和 d3）。

第四个字典是由包含元数据的参考文件生成的字典，它们的键等于一个值，d1我想要的是创建一个字典，其中包含来自最终字典的信息d1, d2和d3之后的信息。d4

并以表格格式打印如下：

目前我有一个肮脏的脚本，但“有效”。

问题是最后 3 行。

由于缺乏深入的知识，简单的建议（对于傻瓜）将不胜感激。

python dictionary merge combiners

2016-11-20T23:41:33.833

0 投票

0 回答

251 浏览

java - 二次排序之前的 Hadoop 组合器

情况

我正在尝试输出一个倒排索引，其中术语作为键，文档编号：频率作为值。值列表按频率降序排列。理想情况下，我只想用 1 个 Mapreduce 阶段/作业来做到这一点。

我试过的

我的程序现在的工作方式是创建一个复合键（term，docNum=count，freq=1）并创建一个自然值（docNum=count，freq=1）。我从 MAP 传递这些键值对。在组合过程中，我对频率求和并将总和作为复合键和自然值的新频率值传递。最后，在 reduce 阶段，我输出键和值列表。

问题

对于我的复合键，我设置了比较器，以便按降序对频率进行排序。但是，我最初将术语频率作为 1 传递（以便我可以在组合阶段总结它们）。似乎二次排序比较发生在合并之前。不是在对频率求和之后比较频率值，而是在求和之前进行比较。因此，在上面的示例中，将 term2 -> doc2 的频率 1 与 term2 -> doc2 的频率 1 进行比较，而不是将 term2 -> doc2 的频率 3 与 term2 ->doc3 的频率 2 进行比较。

我不知道如何让频率按降序排序。

CompositeKey.java (compareTo)

组合比较器.java

GroupingComparator.java

java hadoop mapreduce combiners secondary-sort

2016-11-23T10:50:42.997

0 投票

2 回答

450 浏览

java - Java 8 Stream - 减少函数的组合器没有被执行

我正在使用一个带有三个参数的简单 reduce 方法，即。身份，累加器和组合器。这是我的代码...

但是正在发生的事情是组合器没有被执行。我不明白这背后的原因。这是我的输出..

但是，没有编译错误，也没有异常，我的输出完全正确，与我的预期相同。但不明白为什么组合器没有执行。

java java-8 java-stream reduce combiners

2016-12-01T12:24:37.957

0 投票

3 回答

41 浏览

sql - 如何将 2 个 SQL 查询合二为一

我有一张如下图所示的表格：查询 1：

结果：2017-02-10 (yyyy-MM-dd)

查询 2：

结果：2017-01-02 (yyyy-MM-dd)

我想用 1 个查询显示 2 个结果。请帮我！感谢每一个人！

sql combiners

2017-01-12T08:04:21.767

0 投票

1 回答

901 浏览

hadoop - 什么是 Map Reduce 工作流程？

“hadoop权威指南-汤姆怀特”一书的摘要是：

用户的 map 函数和用户的 reduce 函数之间的所有逻辑都称为 shuffle。然后 Shuffle 跨越 map 和 reduce。在用户的 map() 函数之后，输出在内存循环缓冲区中。当缓冲区满 80% 时，后台线程开始运行。后台线程会将缓冲区的内容输出到溢出文件中。此溢出文件按键分区。并且在每个partition内，key-value对是按key排序的。排序后，如果combiner函数开启，则调用combiner函数。所有溢出文件将合并到一个 MapOutputFile。并且所有 Map 任务的 MapOutputFile 将通过网络收集到 Reduce 任务。减少任务将做另一种排序。然后将调用用户的 Reduce 函数。

所以问题是：

1.）根据上面的总结，这是流程：

Mapper--Partioner--Sort--Combiner--Shuffle--Sort--Reducer--Output

1a.) 这是流程还是其他？

1b.) 你能用一个例子解释一下上面的流程吗？

2.）所以映射器阶段输出是一个大文件（MapOutputFile）？是这个大文件被分解并且键值对被传递到各自的reducer吗？

3.) 当数据在传递到各自的 reducer 时已经排序和组合时，为什么要再次进行排序？

4.) 如果mapper1 在Datanode1 上运行，那么reducer1 是否需要在datanode1 上运行？或者它可以在任何 Datanode 上运行？

hadoop mapreduce combiners bigdata

2017-02-09T09:10:24.727

问题标签 [combiners]

Reference