问题标签 [mongodb-hadoop]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
518 浏览

mongodb - MongoDB Hadoop错误:方案没有文件系统:mongodb

我正在尝试使用 mongoDB hadoop 连接器运行一个基本的 Spark 示例。我正在使用 Hadoop 版本2.6.0。我正在使用1.3.1版的 mongo-hadoop。我不确定将这个 Hadoop 版本的 jar 放在哪里。以下是我尝试过的位置:

  • $HADOOP_HOME/libexec/share/hadoop/mapreduce
  • $HADOOP_HOME/libexec/share/hadoop/mapreduce/lib
  • $HADOOP_HOME/libexec/share/hadoop/hdfs
  • $HADOOP_HOME/libexec/share/hadoop/hdfs/lib

这是我用来将集合加载到 Hadoop 中的代码片段:

无论罐子放在哪里,我都会收到以下错误:

我在 hadoop 日志中没有看到任何其他错误。我怀疑我的配置中缺少某些内容,或者 Hadoop 2.6.0 与此连接器不兼容。任何帮助深表感谢。

0 投票
1 回答
862 浏览

scala - 未找到 Apache Spark Mongo-Hadoop 连接器类

所以我试图运行这个例子https://github.com/plaa/mongo-spark/blob/master/src/main/scala/ScalaWordCount.scala

但我不断收到这个错误

我不确定为什么很难找到课程。我用 maven 构建了这个项目,它似乎构建得很好。

这是我用来运行它的命令。我在我的主目录中工作。提前致谢。

我使用本教程https://github.com/crcsmnky/mongodb-spark-demo使用 apache spark 设置 mongodb

PS我在网上阅读了一些关于类路径中存在错误的信息,该错误将在更新的realese中修复......

0 投票
1 回答
1752 浏览

mongodb - “错误 6000,输出位置验证失败”在 EMR 上使用 PIG MongoDB-Hadoop 连接器

我在 EMR 上的猪脚本中收到“输出位置验证失败”异常。将数据保存回 S3 时失败。我使用这个简单的脚本来缩小问题范围:

这是产生的 Stacktrace:

为了设置 MongoConnector,我使用了这个 Bootstrap 脚本:

0 投票
0 回答
31 浏览

mongodb - 出现错误“Hadoop Release '%s' is an invalid/unsupported release. Valid entries are in 2.6.0”

我正在研究mongodb-hadoop连接器。对于这个过程,我正在构建 mongodb 适配器,在编辑build.sbt文件后,我正在尝试构建像./sbt包这样的适配器,然后我收到错误

Hadoop 版本“%s”是无效/不受支持的版本

我的 Hadoop 版本

我的 build.sbt 文件

请帮助我如何解决它?

0 投票
1 回答
2515 浏览

scala - 使用 Apache Spark 将 MongoDB 数据保存为 parquet 文件格式

我是 Apache spark 以及 Scala 编程语言的新手。

我想要实现的是从我的本地 mongoDB 数据库中提取数据,然后使用带有 hadoop-connector 的 Apache Spark将其保存为镶木地板格式

到目前为止,这是我的代码:

问题是,为了将数据保存为 parquet 文件格式,首先需要将 mongoRDD 变量转换为 Spark DataFrame。我尝试过这样的事情:

我得到的错误是: Exception in thread "main" scala.MatchError: java.lang.Object (of class scala.reflect.internal.Types.$TypeRef$$anon$6)

你们还有其他想法吗?如何将 RDD 转换为 DataFrame,以便我可以以镶木地板格式保存数据?

这是 mongoDB 集合中一个 Document 的结构:https ://gist.github.com/kingtroco/83a94238304c2d654fe4

0 投票
0 回答
414 浏览

python - 使用 Python 在 AWS EMR 中处理 MongoDB

我正在尝试使用 mrjob 和 Python 对 MongoDB 数据库进行地图缩减。mongodb-hadoop 连接器有关于如何使用 AWS EMR 但不与 mrjob 一起使用的示例,我并没有把所有的东西都放在一起。就 mrjob.conf 而言,这是我已经拥有的:

当使用 mrjob Python 映射器/减速器时,我使用了这样的代码:

要修改它以使用 mongodb-hadoop 连接器,我正在尝试这样做:

问题是我没有正确地将方法传递给 BSONMapper 和 BSONReducer。BSONMapper 类在init () 中需要 1 个参数,但它得到了 2 个。

0 投票
1 回答
515 浏览

mongodb - mongo-hadoop。不处理 mongodb 文档删除

我想同步mongodb和hadoop,但是当我从mongodb中删除文档时,这个文档一定不能在hadoop中删除。

我尝试使用 mongo-hadoop 和 hive。这是蜂巢查询:

此查询创建与相应 mongodb 集合同步的表。通过这个查询 mongo-hadoop 也可以处理文档删除。

mongo-hadoop 是否有任何选项,不处理文档删除?或者,有没有其他工具可以解决这个问题?

提前致谢。

0 投票
1 回答
300 浏览

mongodb - Spark:Mongo-Hadoop如何查询

我正在尝试使用 Spark 和 mongo-hadoop 对 MongoDB 进行 $near 查询,其中纬度/经度坐标发生了变化。如何使用 mongo-hadoop 进行查询?

除了像这样的东西:

mongodbConfig.set("mongo.input.query", "{'field':'value'}")我看不到任何有理智的东西。

任何想法?

0 投票
1 回答
283 浏览

mongodb - 与 Spark 一起使用的 MongoHadoop 连接器按分区数重复结果

我正在尝试使用mongo-hadoop连接器将数据读入 spark。问题是,如果我试图设置读取数据的限制,我会在 RDD 中获得限制 * 分区数。

这种行为对于其他限制是可重现的(我总是得到限制 * 3)。

如果我尝试简单地通过 objectId 查询,我会得到类似的行为(它创建一个具有相同对象 * 分区数的 RDD - 在我的情况下,3 个元素具有相同的文档)。

如果有帮助,我还可以提供用于创建 mongo 集合的脚本。

0 投票
1 回答
597 浏览

mongodb - 使用 MongoDB Hadoop 驱动程序创建 Hive 表

我正在尝试使用 wiki 站点上提供的驱动程序(jar)从 Hive 数据库连接到 MongoDB 中的集合。以下是我所做的步骤: -

我在名为“Moe”的数据库下在 MongoDB 中创建了一个名为“Diamond”的集合,它有 20 个文档:

我想通过 Hadoop MongoDB 驱动程序从 Hive 连接并通过 Hive 查看这些文档。

我在同一台服务器上安装并配置了 MongoDB 和 Hive。但是我没有看到任何名为 HIVE_CLASPATH 的变量,我想知道它在哪里。

现在,我连接到 Hive,然后通过以下命令将这 2 个 jar 添加到我的类路径中:-(它们已成功添加)

现在我在 HIVE 中创建一个表:-

我尝试了以下方法: - 将 jar 放在每个可能的目录中,但没有任何效果 - 应该丢失的类几乎存在于 jar 文件中。- 哦,是的,MongoStorageHandler 类在 jar 中非常重要。

我已经用这个打破了我的头!如果有人能阐明我可以做些什么来减轻我的焦虑,那就太好了。

再次感谢。马里奥