问题标签 [reducers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hadoop基础知识:map任务数量mappers reduce任务reducers
映射器和映射任务有什么区别?同样,reducer 和 reduce 任务?此外,在执行 mapreduce 任务期间如何确定 mapper、maptasks、reducers、reducetasks 的数量?如果有的话,给出它们之间的相互关系。
python - 在 Python Mapper Reducer 中使用 CountVectorizer
我正在尝试使用 python mapper reducer 函数应用标记器。我有以下代码,但我不断收到错误。reducer 在列表中输出值,我将值传递给矢量化器。
ValueError:空词汇;也许文档只包含停用词
感谢你们提供的任何帮助。
hadoop - 以编程方式获取 hadoop 中的总映射和减少时间
我正在尝试通过我的 MR 代码中的所有任务计算映射、洗牌和归约的各个总时间。
我需要帮助来检索每个 MapReduce 作业的信息。
有人可以发布任何进行该计算的代码片段吗?
hadoop - 在不同的机器组上运行 Mappers 和 Reducers
我们有一个很好的、大的、复杂的 elastic-mapreduce 作业,它对 Mapper、Collector 和 Reducer 的硬件有截然不同的限制。
问题是:对于映射器,我们需要大量的轻量级机器来并行运行多个映射器(那里都很好);收集器更需要内存,但给它们每个 6GB 的峰值堆应该还是可以的。. . 但是,问题是减速器。当其中一个启动时,它将占用大约 32-64GB 的空间进行处理。
结果是我们得到了循环类型的任务死亡,因为一个盒子的全部内存被消耗了,这导致一个映射器和减速器都在其他地方重新启动。
最简单的方法是,如果我们能以某种方式指定一种方法,让 reducer 在不同的“组”(少数几个巨大的盒子)上运行,同时让映射器/收集器在较小的盒子上运行。这也可以显着节省成本,因为我们真的不应该根据减速器的需求来调整映射器正在运行的节点的大小。
另一种方法是“分解”工作,以便有一个可以旋转的第二个集群来处理映射器收集器的输出——但是,这显然是“次优的”。
所以,问题是:
- 有没有办法指定映射器或减速器将在 Elastic MapReduce 和/或 Hadoop 上运行的“组”?
- 有没有办法阻止减速器在所有映射器完成之前启动?
- 有没有人对如何解决这个问题有其他想法?
干杯!
hadoop - 了解mapper和reducer的用法
我正在运行超过 550 Gb 数据的猪拉丁脚本。reducer 默认为 1。生成结果大约需要 38 分钟。我想知道增加减速器的数量是否会更快地执行脚本
任何帮助将不胜感激。
另外,我想知道设置映射器和减速器背后的概念。
hadoop - Reducer 一次可以有多个键吗?
通过映射器,我制作了多个键,然后将它们传递给减速器以执行某些功能。有没有办法一次将多个密钥发送到同一个减速器?实际上,我一次需要与单个减速器中的键关联的值。提前致谢!
java - map reduce中的Array.length抛出Null指针异常
这是我在 mapreduce 中使用并获得空指针异常的代码。我通过配置传递一个变量,将其作为字符串获取并解析并存储在一个 int 数组中并处理它——
clojure - 减速器库的限制核心
我在具有 32 个内核的生产服务器上的代码中的某些地方使用了 reducers 库,以利用一些并行性。但是 Fork/Join 框架似乎对内核的使用如此之多,以至于其他进程阻塞并变得无响应。
有什么方法可以限制没有。jvm 实例上的reducers 库正在使用的内核或生成的线程?
clojure - 解释 clojure map reducer 实现
我正在尝试制作core.reducers
库的头部或尾部,并且遇到以下代码行r/map
:
在defcurried map
实施中,这rfn
对我来说看起来很奇怪和不寻常,因为我不明白为什么[ret k v]
放在列表的开头。谁能解释一下?
hadoop - Custom Partitioner, without setting number of reducers
Is it must that we have to set number of reducers to use custom partitioner ? Example : Word Count problem, want to get all the stop words count in one partition and remaining words count to go to different partition. If I set number of reducers to two and stop words to go to one partition and others to go to the next partition, it will work, but I am restricting the number of reducers to two(or N ), which I don't want. What is the best approach here? Or I have to calculate and set the number of reducers based on the size of the input to get the best performance?