问题标签 [mongodb-hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 使用 Java-Hadoop 连接器更新 MongoDB 中的现有集合
是否可以使用新数据更新现有的 MongoDB 集合。我正在使用 hadoop 作业向 Mongo 读取写入数据。所需的场景是:-说 Mongo 中的第一个集合是
从 Mongo 读取数据并处理数据后,MongoDB 应该包含
如果可能,请提供一些虚拟代码。
java - 在 Morphia 的帮助下在 Hadoop 中使用 MongoDB 数据
我一直在使用 MongoInputFormat,它允许将 MongoDB 集合中的所有文档放入用 Hadoop 编写的 MapReduce 作业。
正如您在提供的示例(this、this和this)中看到的那样,提供给映射器的文档类型是BSONObject(Java 中的接口)。
现在我也非常喜欢Morphia,它允许将原始数据从 MongoDB 映射到更易于使用的 POJO。
因为我只能得到一个 BSONObject 作为输入,所以我考虑过使用Morphia wiki页面底部描述的方法:
我的问题是这种方法需要一个DBObject而不是BSONObject。DBObject 实际上是:
如您所见,我不能简单地从 BSONObject 转换为 DBObject 并调用提供的方法。
我如何以最好的方式处理这个问题?
mongodb - 在 Hadoop 中提交 MapReduce 作业时找不到 com.mongodb.hadoop.MongoOutputFormat
我按照本教程http://www.mongodb.org/display/DOCS/Hadoop+Quick+Start构建 mongodb-hadoop。我尝试构建Treasury Yield 示例(我的Hadoop 版本是0.20.2。),但是当我提交MapReduce 作业时出现以下错误:
我无法运行国债收益率示例...任何帮助将不胜感激。
java - Hadoop 与 MongoDB 概念
嗨,我是 Hadoop 和 NoSQL 技术的新手。我开始通过读取存储在 HDFS 中的文件并处理它来学习 world-count 程序。现在我想将 Hadoop 与 MongoDB 一起使用。从这里开始程序。
现在让我感到困惑的是,它将 mongodb 数据存储在我的本地文件系统上,并在 map/reduce 中从本地文件系统读取数据到 HDFS,然后再次将其写入 mongodb 本地文件系统。在我学习HBase的时候,我们可以将其配置为将其数据存储在HDFS上,而hadoop可以直接在HDFS上进行处理(map/reduce)。如何配置 mongodb 将其数据存储在 HDFS 上。
我认为将数据存储在 HDFS 中以进行快速处理是更好的方法。不在本地文件系统中。我对吗?如果我走错方向,请清除我的概念。
mongodb-hadoop - MongoDB-Hadoop 适配器
为了开始使用 mongodb-hadoop 适配器,我指的是手册
我系统上当前运行的 hadoop 版本是 0.20.2。
所以我将build.sbt
文件编辑为
ThisBuild 中的 hadoopRelease := "0.20.2"。
但是当我尝试“sbt package”的下一个命令时,我收到以下错误。
完整的日志是
mongodb - mongo.input.query 与 $date 不过滤输入到 hadoop
我有一个分片输入集合,我想在将其发送到我的 hadoop 集群以进行 map reduce 计算之前对其进行过滤。
我的 $ hadoop jar 中有这个参数 - 命令
它有效。输出不会 mapreduce 任何不满足此查询的数据。
然而这不起作用:
没有数据作为输出产生。
1388620740000 表示 2014 年 1 月 1 日星期三 23:59:00 GMT+0000 (GMT) 的日期。该设置使用 hadoop 2.2、mongo 2.4.9、此连接器版本 (2.2-1.2.0)。
没有错误消息,只是标准的 hadoop 成功消息。
我的语法不正确还是我错过了什么?
你能给我指出一些调试工具/方法吗?
mongodb - MongoDB Hadoop 连接器流未运行
我想启动 MongoDB Hadoop Streaming 连接器,所以我下载了 Hadoop 的兼容版本(2.2.0)(参见https://github.com/mongodb/mongo-hadoop/blob/master/README.md#apache- hadoop-22 )
我克隆了 git 存储库 mongohadoop,将 build.sbt hadoopRelease 更改为 2.2:
然后我启动了:
我明白了:
我不明白为什么,我尝试了几乎所有应该支持流媒体的版本,但我总是遇到同样的错误!
我准确地说我在 Mac OS X 上。谢谢!
apache-pig - 猪:使用 MongoInsertStorage 存储不起作用
我在猪脚本中执行这个简单的代码:
它返回以下错误:
文件 pig_1396614639609.log 的结尾:
...在 org.apache.hadoop.util.RunJar.main(RunJar.java:208) 引起:java.lang.IllegalArgumentException:无效的 URI 格式。URI 必须以mongodb:// 协议字符串开头。在 com.mongodb.hadoop.pig.MongoInsertStorage.setStoreLocation(MongoInsertStorage.java:159) 在 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler.getJob(JobControlCompiler.java:576)
... 17 更多
我不知道错误在哪里,所以 mongodb 协议字符串“mongodb://”写得很好。
mongodb - MongoDB hadoop 连接器无法查询 mongo hive 表
我正在使用 MongoDB hadoop 连接器在 hadoop 中使用 hive 表查询 mongoDB。
我能够执行
但是当我尝试执行以下查询时
它引发以下异常。
以下类存在于 hive lib 文件夹中。
异常堆栈跟踪:
请指教。
mongodb - hadoop mongodb 连接器构建失败
我已经安装了 hadoop 2.3,基本测试也通过了。所以,我相信它是有效的。现在我想安装 mongodb hadoop 连接器,我正在遵循官方指南,当我发出这个命令直到某个点一切正常然后它失败了。
我正在尝试在具有 15 GB 磁盘空间和 1.5 GB RAM 的 ubuntu 14.04 的 VirtualBox 映像中执行此操作。
这是发生的事情的完整日志
有人可以帮我吗?我尝试浏览两个失败的 URL,并且 repository.cloudera.com 是可浏览的,而浏览到 repo1.maven.org 被禁用,而我认为这不是问题,因为我可以看到它已经下载了很多东西从那里我猜。
请帮我。
谢谢