问题标签 [mongodb-hadoop]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
1151 浏览

java - 使用 Java-Hadoop 连接器更新 MongoDB 中的现有集合

是否可以使用新数据更新现有的 MongoDB 集合。我正在使用 hadoop 作业向 Mongo 读取写入数据。所需的场景是:-说 Mongo 中的第一个集合是

从 Mongo 读取数据并处理数据后,MongoDB 应该包含

如果可能,请提供一些虚拟代码。

0 投票
2 回答
312 浏览

java - 在 Morphia 的帮助下在 Hadoop 中使用 MongoDB 数据

我一直在使用 MongoInputFormat,它允许将 MongoDB 集合中的所有文档放入用 Hadoop 编写的 MapReduce 作业。

正如您在提供的示例(thisthisthis)中看到的那样,提供给映射器的文档类型是BSONObject(Java 中的接口)。

现在我也非常喜欢Morphia,它允许将原始数据从 MongoDB 映射到更易于使用的 POJO。

因为我只能得到一个 BSONObject 作为输入,所以我考虑过使用Morphia wiki页面底部描述的方法:

我的问题是这种方法需要一个DBObject而不是BSONObject。DBObject 实际上是:

如您所见,我不能简单地从 BSONObject 转换为 DBObject 并调用提供的方法。

我如何以最好的方式处理这个问题?

0 投票
1 回答
1680 浏览

mongodb - 在 Hadoop 中提交 MapReduce 作业时找不到 com.mongodb.hadoop.MongoOutputFormat

我按照本教程http://www.mongodb.org/display/DOCS/Hadoop+Quick+Start构建 mongodb-hadoop。我尝试构建Treasury Yield 示例(我的Hadoop 版本是0.20.2。),但是当我提交MapReduce 作业时出现以下错误:

我无法运行国债收益率示例...任何帮助将不胜感激。

0 投票
2 回答
2476 浏览

java - Hadoop 与 MongoDB 概念

嗨,我是 Hadoop 和 NoSQL 技术的新手。我开始通过读取存储在 HDFS 中的文件并处理它来学习 world-count 程序。现在我想将 Hadoop 与 MongoDB 一起使用。从这里开始程序。

现在让我感到困惑的是,它将 mongodb 数据存储在我的本地文件系统上,并在 map/reduce 中从本地文件系统读取数据到 HDFS,然后再次将其写入 mongodb 本地文件系统。在我学习HBase的时候,我们可以将其配置为将其数据存储在HDFS上,而hadoop可以直接在HDFS上进行处理(map/reduce)。如何配置 mongodb 将其数据存储在 HDFS 上。

我认为将数据存储在 HDFS 中以进行快速处理是更好的方法。不在本地文件系统中。我对吗?如果我走错方向,请清除我的概念。

0 投票
1 回答
245 浏览

mongodb-hadoop - MongoDB-Hadoop 适配器

为了开始使用 mongodb-hadoop 适配器,我指的是手册

我系统上当前运行的 hadoop 版本是 0.20.2。

所以我将build.sbt文件编辑为

ThisBuild 中的 hadoopRelease := "0.20.2"。

但是当我尝试“sbt package”的下一个命令时,我收到以下错误。

完整的日志是

0 投票
1 回答
710 浏览

mongodb - mongo.input.query 与 $date 不过滤输入到 hadoop

我有一个分片输入集合,我想在将其发送到我的 hadoop 集群以进行 map reduce 计算之前对其进行过滤。

我的 $ hadoop jar 中有这个参数 - 命令

它有效。输出不会 mapreduce 任何不满足此查询的数据。

然而这不起作用:

没有数据作为输出产生。

1388620740000 表示 2014 年 1 月 1 日星期三 23:59:00 GMT+0000 (GMT) 的日期。该设置使用 hadoop 2.2、mongo 2.4.9、连接器版本 (2.2-1.2.0)。

没有错误消息,只是标准的 hadoop 成功消息。

我的语法不正确还是我错过了什么?

你能给我指出一些调试工具/方法吗?

0 投票
1 回答
465 浏览

mongodb - MongoDB Hadoop 连接器流未运行

我想启动 MongoDB Hadoop Streaming 连接器,所以我下载了 Hadoop 的兼容版本(2.2.0)(参见https://github.com/mongodb/mongo-hadoop/blob/master/README.md#apache- hadoop-22 )

我克隆了 git 存储库 mongohadoop,将 build.sbt hadoopRelease 更改为 2.2:

然后我启动了:

我明白了:

我不明白为什么,我尝试了几乎所有应该支持流媒体的版本,但我总是遇到同样的错误!

我准确地说我在 Mac OS X 上。谢谢!

0 投票
1 回答
313 浏览

apache-pig - 猪:使用 MongoInsertStorage 存储不起作用

我在猪脚本中执行这个简单的代码:

它返回以下错误:

文件 pig_1396614639609.log 的结尾:

...在 org.apache.hadoop.util.RunJar.main(RunJar.java:208) 引起:java.lang.IllegalArgumentException:无效的 URI 格式。URI 必须以mongodb:// 协议字符串开头。在 com.mongodb.hadoop.pig.MongoInsertStorage.setStoreLocation(MongoInsertStorage.java:159) 在 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler.getJob(JobControlCompiler.java:576)

... 17 更多

我不知道错误在哪里,所以 mongodb 协议字符串“mongodb://”写得很好。

0 投票
1 回答
1259 浏览

mongodb - MongoDB hadoop 连接器无法查询 mongo hive 表

我正在使用 MongoDB hadoop 连接器在 hadoop 中使用 hive 表查询 mongoDB。

我能够执行

但是当我尝试执行以下查询时

它引发以下异常。

以下类存在于 hive lib 文件夹中。

异常堆栈跟踪:

请指教。

0 投票
1 回答
550 浏览

mongodb - hadoop mongodb 连接器构建失败

我已经安装了 hadoop 2.3,基本测试也通过了。所以,我相信它是有效的。现在我想安装 mongodb hadoop 连接器,我正在遵循官方指南,当我发出这个命令直到某个点一切正常然后它失败了。

我正在尝试在具有 15 GB 磁盘空间和 1.5 GB RAM 的 ubuntu 14.04 的 VirtualBox 映像中执行此操作。

这是发生的事情的完整日志

有人可以帮我吗?我尝试浏览两个失败的 URL,并且 repository.cloudera.com 是可浏览的,而浏览到 repo1.maven.org 被禁用,而我认为这不是问题,因为我可以看到它已经下载了很多东西从那里我猜。

请帮我。

谢谢