“mongodb-hadoop”的相关标签问题

0 投票

0 回答

518 浏览

mongodb - MongoDB Hadoop错误：方案没有文件系统：mongodb

我正在尝试使用 mongoDB hadoop 连接器运行一个基本的 Spark 示例。我正在使用 Hadoop 版本2.6.0。我正在使用1.3.1版的 mongo-hadoop。我不确定将这个 Hadoop 版本的 jar 放在哪里。以下是我尝试过的位置：

$HADOOP_HOME/libexec/share/hadoop/mapreduce
$HADOOP_HOME/libexec/share/hadoop/mapreduce/lib
$HADOOP_HOME/libexec/share/hadoop/hdfs
$HADOOP_HOME/libexec/share/hadoop/hdfs/lib

这是我用来将集合加载到 Hadoop 中的代码片段：

无论罐子放在哪里，我都会收到以下错误：

我在 hadoop 日志中没有看到任何其他错误。我怀疑我的配置中缺少某些内容，或者 Hadoop 2.6.0 与此连接器不兼容。任何帮助深表感谢。

2014-12-25T17:35:59.613

0 投票

1 回答

862 浏览

scala - 未找到 Apache Spark Mongo-Hadoop 连接器类

所以我试图运行这个例子https://github.com/plaa/mongo-spark/blob/master/src/main/scala/ScalaWordCount.scala

但我不断收到这个错误

我不确定为什么很难找到课程。我用 maven 构建了这个项目，它似乎构建得很好。

这是我用来运行它的命令。我在我的主目录中工作。提前致谢。

我使用本教程https://github.com/crcsmnky/mongodb-spark-demo使用 apache spark 设置 mongodb

PS我在网上阅读了一些关于类路径中存在错误的信息，该错误将在更新的realese中修复......

scala maven hadoop apache-spark mongodb-hadoop

2015-02-14T01:24:32.133

0 投票

1 回答

1752 浏览

mongodb - “错误 6000，输出位置验证失败”在 EMR 上使用 PIG MongoDB-Hadoop 连接器

我在 EMR 上的猪脚本中收到“输出位置验证失败”异常。将数据保存回 S3 时失败。我使用这个简单的脚本来缩小问题范围：

这是产生的 Stacktrace：

为了设置 MongoConnector，我使用了这个 Bootstrap 脚本：

mongodb hadoop apache-pig amazon-emr mongodb-hadoop

2015-03-23T17:57:51.600

0 投票

0 回答

31 浏览

mongodb - 出现错误“Hadoop Release '%s' is an invalid/unsupported release. Valid entries are in 2.6.0”

我正在研究mongodb-hadoop连接器。对于这个过程，我正在构建 mongodb 适配器，在编辑build.sbt文件后，我正在尝试构建像./sbt包这样的适配器，然后我收到错误

Hadoop 版本“%s”是无效/不受支持的版本

我的 Hadoop 版本

我的 build.sbt 文件

请帮助我如何解决它？

mongodb hadoop mongodb-hadoop

2015-06-11T06:59:59.390

0 投票

1 回答

2515 浏览

scala - 使用 Apache Spark 将 MongoDB 数据保存为 parquet 文件格式

我是 Apache spark 以及 Scala 编程语言的新手。

我想要实现的是从我的本地 mongoDB 数据库中提取数据，然后使用带有 hadoop-connector 的 Apache Spark将其保存为镶木地板格式

到目前为止，这是我的代码：

问题是，为了将数据保存为 parquet 文件格式，首先需要将 mongoRDD 变量转换为 Spark DataFrame。我尝试过这样的事情：

我得到的错误是： Exception in thread "main" scala.MatchError: java.lang.Object (of class scala.reflect.internal.Types.$TypeRef$$anon$6)

你们还有其他想法吗？如何将 RDD 转换为 DataFrame，以便我可以以镶木地板格式保存数据？

这是 mongoDB 集合中一个 Document 的结构：https ://gist.github.com/kingtroco/83a94238304c2d654fe4

scala hadoop apache-spark parquet mongodb-hadoop

2015-08-05T16:52:20.620

0 投票

0 回答

414 浏览

python - 使用 Python 在 AWS EMR 中处理 MongoDB

我正在尝试使用 mrjob 和 Python 对 MongoDB 数据库进行地图缩减。mongodb-hadoop 连接器有关于如何使用 AWS EMR 但不与 mrjob 一起使用的示例，我并没有把所有的东西都放在一起。就 mrjob.conf 而言，这是我已经拥有的：

当使用 mrjob Python 映射器/减速器时，我使用了这样的代码：

要修改它以使用 mongodb-hadoop 连接器，我正在尝试这样做：

问题是我没有正确地将方法传递给 BSONMapper 和 BSONReducer。BSONMapper 类在init () 中需要 1 个参数，但它得到了 2 个。

python mongodb emr mrjob mongodb-hadoop

2015-08-12T18:28:49.660

0 投票

1 回答

515 浏览

mongodb - mongo-hadoop。不处理 mongodb 文档删除

我想同步mongodb和hadoop，但是当我从mongodb中删除文档时，这个文档一定不能在hadoop中删除。

我尝试使用 mongo-hadoop 和 hive。这是蜂巢查询：

此查询创建与相应 mongodb 集合同步的表。通过这个查询 mongo-hadoop 也可以处理文档删除。

mongo-hadoop 是否有任何选项，不处理文档删除？或者，有没有其他工具可以解决这个问题？

提前致谢。

mongodb hadoop hive mongodb-hadoop

2015-11-12T07:43:38.813

0 投票

1 回答

300 浏览

mongodb - Spark：Mongo-Hadoop如何查询

我正在尝试使用 Spark 和 mongo-hadoop 对 MongoDB 进行 $near 查询，其中纬度/经度坐标发生了变化。如何使用 mongo-hadoop 进行查询？

除了像这样的东西：

mongodbConfig.set("mongo.input.query", "{'field':'value'}")我看不到任何有理智的东西。

任何想法？

mongodb apache-spark mongodb-hadoop

2016-02-19T16:10:02.420

0 投票

1 回答

283 浏览

mongodb - 与 Spark 一起使用的 MongoHadoop 连接器按分区数重复结果

我正在尝试使用mongo-hadoop连接器将数据读入 spark。问题是，如果我试图设置读取数据的限制，我会在 RDD 中获得限制 * 分区数。

这种行为对于其他限制是可重现的（我总是得到限制 * 3）。

如果我尝试简单地通过 objectId 查询，我会得到类似的行为（它创建一个具有相同对象 * 分区数的 RDD - 在我的情况下，3 个元素具有相同的文档）。

如果有帮助，我还可以提供用于创建 mongo 集合的脚本。

mongodb apache-spark rdd mongodb-hadoop spark-hive

2016-03-27T09:43:19.873

0 投票

1 回答

597 浏览

mongodb - 使用 MongoDB Hadoop 驱动程序创建 Hive 表

我正在尝试使用 wiki 站点上提供的驱动程序（jar）从 Hive 数据库连接到 MongoDB 中的集合。以下是我所做的步骤： -

我在名为“Moe”的数据库下在 MongoDB 中创建了一个名为“Diamond”的集合，它有 20 个文档：

我想通过 Hadoop MongoDB 驱动程序从 Hive 连接并通过 Hive 查看这些文档。

我在同一台服务器上安装并配置了 MongoDB 和 Hive。但是我没有看到任何名为 HIVE_CLASPATH 的变量，我想知道它在哪里。

现在，我连接到 Hive，然后通过以下命令将这 2 个 jar 添加到我的类路径中：-（它们已成功添加）

现在我在 HIVE 中创建一个表：-

我尝试了以下方法： - 将 jar 放在每个可能的目录中，但没有任何效果 - 应该丢失的类几乎存在于 jar 文件中。- 哦，是的，MongoStorageHandler 类在 jar 中非常重要。

我已经用这个打破了我的头！如果有人能阐明我可以做些什么来减轻我的焦虑，那就太好了。

再次感谢。马里奥

mongodb hadoop hive mongodb-hadoop

2016-04-14T17:04:25.113

问题标签 [mongodb-hadoop]

Reference