问题标签 [mapper]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 未生成 Hadoop 流映射器字节偏移
我正在运行一个流式 Hadoop 作业,并且字节偏移量没有作为映射器的输出(键)生成,就像我期望的那样。命令:
我的理解是TextInputFormat是默认的,所以我也尝试了上面没有-inputformat选项的命令。我也尝试过删除 -D,但有人告诉我这是在使用流式 API 时将字节偏移作为键所必需的。
对于它的价值,我只是在为一个学生项目试验 Hadoop。目前,映射器是 HDFS 中文件的一个非常简单的 python grep,将每一行与提供的正则表达式匹配:
但现在,唯一输出(到 reducer)的是匹配行。我期待制表符或空格分隔的键/值对,其中 key=byte_offset 和 value=regex_line_match。
谁能告诉我或建议为什么会这样?
另外,我也有兴趣回答这两个(相关)问题:
- 映射器是否可以手动确定它正在处理的每一行数据相对于数据所属文件的字节偏移量?
- 映射器是否可以确定它正在处理的数据所属的文件中的总字节数?
如果对这两个问题中的任何一个都是肯定的,那么如何?(python,或一般的流媒体)。
编辑:
如果我使用-inputformat org.apache.hadoop.mapred.lib.NLineInputFormat
,那么字节偏移量将作为映射器输出的键产生。但是这项工作需要很长时间才能完成(而且我的输入文件中只有大约 50 行文本!)。
php - 如何在php中使用提供数组的计数来更改说明符的数量
我的代码如下
控制器代码:
映射器代码:
我($query->"location_wise")
在statController->selectLocationWise()
函数中添加了 3 个说明符。当我使用它时,我如何添加$select->getValues()[2]
价值statMapper->select()
,而不是手动添加。
json - 如何将json动态对象转换为c#实体
当我制作mvc ajax json post applicaiton时,将json动态对象转换为实体存在问题。
在我的应用程序中,电影是一个业务实体,json 对象比电影实体具有行状态属性。json数据发布到mvc服务器端后,可以转换为动态对象,这个阶段一切正常。但是在对每一行状态进行一些逻辑处理后,需要将动态对象转换为电影业务实体,然后开始数据库事务逻辑。但是即使我尝试不同的方法来投射对象,也有一个问题。
请问有人使用相同的演员方法吗?感谢您的建议或回复。
java - Java Hadoop Mapper 如何发送多个值
我的映射器需要发送以下元组:
我想将 custID 作为键发送到 reducer,并将 prodID 和 rate 作为值一起发送,因为它们是 reduce 阶段所需要的。这样做的最佳方法是什么?
java - 将 XML 实体映射到 Java 对象
我很确定,这是围绕 XML 到 Java 对象转换的许多重复问题之一。但是我开始了这个线程,因为我找不到更简单或寻找更简单的解决方案。
我有一个 xsd [事实上我正在设计它] 和 xml。我想根据映射将 xml 数据自动映射到 Java bean
现在我的 Java 类将是
是否有任何简单的工具/框架可以将数据从 XML 自动映射到 Java bean [必须支持属性/元素映射]。教程会很好。
顺便说一句,我正在使用 Spring 框架,如果利用 spring-oxm 优势,它是受欢迎的。
hadoop - Size of map output partitions?
Let's assume that we have 3 mappers (m1, m2 and m3) and 2 reducers (r1 and r2).
Each reducer fetches its input partitions from the generated files by each mapper.
From the job history, I can extract the total input for each reduce task, but I would like to know the contribution of each mapper to this reducer input ?
For example, the reducer r1 will receive an INPUT_r1 such as:
INPUT_r1 = ( partition fetched from m1 ) + ( partition fetched from m2 ) + ( partition fetched from m3 )
I would like to know the size of those partitions from mappers ?
java - 在 Hadoop 的 WordCount 程序中获取异常
尝试在 hadoop 上运行第一个程序时,我遇到了这个异常。(我在 0.20.2 版本上使用 hadoop 新 API)。我在网上搜索,似乎大多数人在配置逻辑中没有设置MapperClass和ReducerClass时都会遇到这个问题。但我检查了一下,看起来代码没问题。如果有人可以帮助我,我将不胜感激。
java.io.IOException:映射中的键类型不匹配:预期的 org.apache.hadoop.io.Text,在 org.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect 处收到 org.apache.hadoop.io.LongWritable(MapTask .java:871)
java - Hadoop程序不读取文件内容
这可能是一个基本问题,但在 map reduce 程序中,我想读取输入文件夹中存在的所有文件的名称而不是内容,并且我想将这些文件的名称发送到我的映射器类。配置conf=新配置();
这是我的主要课程,我似乎无法弄清楚。
hadoop - 访问本地文件系统而不上传到 hdfs
无论如何要在HDFS之外的Hadoop中指定输入路径,我正在运行一个单节点集群并想访问HDFS之外的文件,那么有什么办法吗???
hadoop - 针对不同映射器的 HBase MapReduce 拆分扫描
我正在努力以适当的方式为几个地图任务分配我的 HBase 行。我的目标是通过行键拆分我的扫描并将一组行分配给一个映射作业。
就目前而言,我只能定义一个扫描,我的映射器一次总是一行。但这不是我想要的 - 我需要按集设置地图输入。
那么是否有可能拆分我的 HBase 表。扫描成n组行,然后输入n个映射器?
我不是在寻找一种解决方案来启动 MapReduce 作业写入 n 个文件和另一个 MapReduce 作业以再次读取它们作为获取这些集合的文本输入。
提前致谢!