问题标签 [mapper]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - HADOOP - 在映射器中获取节点名
我正在编写一个映射器,并想知道是否可以获取映射器运行的节点名。
java - 如何在 reduce 阶段工作时启动 map 阶段
我有这种情况。工作 A 和工作 B。是否有机会使用 JobA reduce 阶段提供的数据来启动 JobB 映射阶段,而这仍在工作?
谢谢!
hadoop - Hadoop Streaming 和多个 reducer 步骤,每个步骤之间没有映射器
我正在排除如何对数据进行多次排序而不必每次都返回映射器的问题。
我想设置:mapper 1 --> reducer 1 ---> reducer 2 ---> reducer 3
我想让减速器 1 输出(键、数据),然后让它直接进入减速器 2……这可能吗?
我从故障排除中了解到您可以链接作业,但这需要每个步骤的映射器?
每当我尝试在没有映射器的情况下运行时,它都会以错误结束。如果我可以根据需要从减速器 1 输出它,那么似乎为每个步骤运行映射器将浪费时间/资源。
想法?
hadoop - Hadoop 上的 Kmeans
- 在 Kmeans 的每次迭代之后,Hadoop 是否会将作为一堆集群的输出存储到 HDFS 并在下一次迭代中将它们提取到内存中?
- 制图员将观察结果放在某些集群中。我的意思是每个节点都必须知道所有的数据,而hadoop只分配计算而不是数据,这样每个节点都会给出某个节点的观察集,对吧?
谢谢
php - 如何在php中的magic setter和getter之后覆盖参数
现在我有一个对 DB 执行 ORM 的 BaseObject。我依靠私有 $data 和魔术 setter 和 getter 来创建具有一堆列作为私有对象成员的对象(动态)。在子类中,如果我想更改行为以设置单个对象成员,我必须覆盖父 setter 并查找密钥。我的问题是是否有更好的方法来做到这一点,我可以覆盖单个对象成员而不是通过 __setter
映射到数据库并动态创建一堆私有参数的基本对象映射器
和儿童班。现在要覆盖参数设置我必须这样做
我的问题是有优雅的方法来做到这一点,也许是在儿童班上这样的?
目标是做
scala - 将尚未保存的对象添加到 MappedManyToMany
我正在从事的项目遇到了一些不良的 Mapper 行为。除非对象已经保存在数据库中,否则您似乎无法将对象添加到多对多关联中(更具体地说,您无法从多对多关联中检索一些未保存的对象)。
例如,我们有 M:N 关系中的员工和部门。我们实例化 2 个部门:会计和安全。会计在员工获救之前获得员工,安全部门在员工获救后获得员工。
输出
!!!
会计的员工都变成了弗雷德!问题的规模相似:添加 10 个尚未保存的实体以accounting.employees
在访问时产生 10 个对 Fred 的引用。
这似乎是一个错误,或者是对 Mapper 有用性的严重限制。是否有不涉及任何一种行为的解决方法:
- 使用模型外部的一些数据结构来跟踪实体和关联,直到您准备好保存,或者
- 在创建时保存实体,如果用户“改变主意”关于保存,则发出删除
python - ApplicationError: 7 当处理完成后,mapreduce worker 写入 Google Cloud Storage
刚刚完成一项大型 Appengine mapreduce 任务,我的许多分片都在终点线被卡住了。这是设置:
我正在并行运行其中的 3 个,每个都有 16 个分片。一个映射器顺利完成,另外两个映射器在他们的 14 个和 9 个分片上都取得了成功。
剩下的碎片全部被石墙完全封印,回归UnknownError: ApplicationError: 7
。(本文末尾的完整堆栈跟踪。)
请注意,映射器正在尝试写入Google Cloud Storage。错误发生在执行此写入的位中。
在寻找了一段时间后,我发现在google.appengine.runtime.apiproxy(这似乎是有问题的代理)中,错误 7 是OTHER_ERROR
.
我已经重试了这些最终任务(来自任务队列)大约 3 个小时,自从这些错误开始以来没有一个成功;无论发生什么,它都完全卡住了。我也尝试停止所有正在运行的实例,以防这是一些奇怪的本地状态,但没有改变......
这是完整的堆栈跟踪:
hadoop - Hadoop 流式处理:每个地图的单个文件或多个文件。不要分裂
我有很多需要由 C++ 库处理的 zip 文件。所以我使用 C++ 来编写我的 hadoop 流程序。该程序将读取一个 zip 文件,将其解压缩并处理提取的数据。我的问题是:
我的映射器无法获得一个文件的内容。它通常会得到类似 2.4 文件或 3.2 文件的内容。Hadoop 会向我的映射器发送几个文件,但至少有一个文件是部分的。你知道 zip 文件不能这样处理。每张地图我可以只得到一个文件吗?我不想使用文件列表作为输入并从我的程序中读取它,因为我想拥有数据局部性的优势。
如果 Hadoop 不拆分 zip 文件,我可以接受每个地图的多个 zip 文件的内容。我的意思是 1、2、3 个文件,而不是 2.3 个文件。实际上它会更好,因为我的程序需要加载大约 800MB 的数据文件来处理解压缩的数据。我们可以这样做吗?
hadoop - 在 Hadoop 中读取的 BZip2 文件
我听说我们可以使用多个映射器在 Hadoop 中并行读取一个 bzip2 文件的不同部分,以提高性能。但我搜索后找不到相关样本。感谢是否有人能指出我相关的代码片段。谢谢。
顺便说一句:gzip 是否具有相同的功能(多个映射器并行处理一个 gzip 文件的不同部分)。
database - 多次调用数据库的依赖注入
我试图在我的代码中更好地实现 OOP 和依赖注入,并遇到以下问题。
我为涉及雇主和公司的客户提供服务(使用相应的模型、映射器和数据库表):
为了获得一个 Service 对象,我首先实例化 Service 对象,该对象从数据库中返回一个 clientId。使用 clientId 实例化一个 Client 对象(并将其附加到服务),这涉及再次访问数据库。雇主和公司也一样。
我可以通过连接从数据库中一次性检索服务、客户、雇主和公司,但这会使我的映射器更加复杂。例如,客户、雇主和公司都有地址,所以我需要为这些列加上别名并将它们映射到各自的模型。这比单独从每个表中检索所有列并将它们单独映射到每个模型(例如,使用一些逻辑将带下划线的列转换为 ZF camelCase)、重用我的客户、雇主和公司映射器更不干净。
是否有最佳实践解决方案,还是取决于个人喜好和情况(性能与可维护性)?