问题标签 [mongodb-hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mongodb - MongoDB Hadoop错误:方案没有文件系统:mongodb
我正在尝试使用 mongoDB hadoop 连接器运行一个基本的 Spark 示例。我正在使用 Hadoop 版本2.6.0。我正在使用1.3.1版的 mongo-hadoop。我不确定将这个 Hadoop 版本的 jar 放在哪里。以下是我尝试过的位置:
- $HADOOP_HOME/libexec/share/hadoop/mapreduce
- $HADOOP_HOME/libexec/share/hadoop/mapreduce/lib
- $HADOOP_HOME/libexec/share/hadoop/hdfs
- $HADOOP_HOME/libexec/share/hadoop/hdfs/lib
这是我用来将集合加载到 Hadoop 中的代码片段:
无论罐子放在哪里,我都会收到以下错误:
我在 hadoop 日志中没有看到任何其他错误。我怀疑我的配置中缺少某些内容,或者 Hadoop 2.6.0 与此连接器不兼容。任何帮助深表感谢。
scala - 未找到 Apache Spark Mongo-Hadoop 连接器类
所以我试图运行这个例子https://github.com/plaa/mongo-spark/blob/master/src/main/scala/ScalaWordCount.scala
但我不断收到这个错误
我不确定为什么很难找到课程。我用 maven 构建了这个项目,它似乎构建得很好。
这是我用来运行它的命令。我在我的主目录中工作。提前致谢。
我使用本教程https://github.com/crcsmnky/mongodb-spark-demo使用 apache spark 设置 mongodb
PS我在网上阅读了一些关于类路径中存在错误的信息,该错误将在更新的realese中修复......
mongodb - “错误 6000,输出位置验证失败”在 EMR 上使用 PIG MongoDB-Hadoop 连接器
我在 EMR 上的猪脚本中收到“输出位置验证失败”异常。将数据保存回 S3 时失败。我使用这个简单的脚本来缩小问题范围:
这是产生的 Stacktrace:
为了设置 MongoConnector,我使用了这个 Bootstrap 脚本:
mongodb - 出现错误“Hadoop Release '%s' is an invalid/unsupported release. Valid entries are in 2.6.0”
我正在研究mongodb-hadoop
连接器。对于这个过程,我正在构建 mongodb 适配器,在编辑build.sbt
文件后,我正在尝试构建像./sbt
包这样的适配器,然后我收到错误
Hadoop 版本“%s”是无效/不受支持的版本
我的 Hadoop 版本
我的 build.sbt 文件
请帮助我如何解决它?
scala - 使用 Apache Spark 将 MongoDB 数据保存为 parquet 文件格式
我是 Apache spark 以及 Scala 编程语言的新手。
我想要实现的是从我的本地 mongoDB 数据库中提取数据,然后使用带有 hadoop-connector 的 Apache Spark将其保存为镶木地板格式
到目前为止,这是我的代码:
问题是,为了将数据保存为 parquet 文件格式,首先需要将 mongoRDD 变量转换为 Spark DataFrame。我尝试过这样的事情:
我得到的错误是:
Exception in thread "main" scala.MatchError: java.lang.Object (of class scala.reflect.internal.Types.$TypeRef$$anon$6)
你们还有其他想法吗?如何将 RDD 转换为 DataFrame,以便我可以以镶木地板格式保存数据?
这是 mongoDB 集合中一个 Document 的结构:https ://gist.github.com/kingtroco/83a94238304c2d654fe4
python - 使用 Python 在 AWS EMR 中处理 MongoDB
我正在尝试使用 mrjob 和 Python 对 MongoDB 数据库进行地图缩减。mongodb-hadoop 连接器有关于如何使用 AWS EMR 但不与 mrjob 一起使用的示例,我并没有把所有的东西都放在一起。就 mrjob.conf 而言,这是我已经拥有的:
当使用 mrjob Python 映射器/减速器时,我使用了这样的代码:
要修改它以使用 mongodb-hadoop 连接器,我正在尝试这样做:
问题是我没有正确地将方法传递给 BSONMapper 和 BSONReducer。BSONMapper 类在init () 中需要 1 个参数,但它得到了 2 个。
mongodb - mongo-hadoop。不处理 mongodb 文档删除
我想同步mongodb和hadoop,但是当我从mongodb中删除文档时,这个文档一定不能在hadoop中删除。
我尝试使用 mongo-hadoop 和 hive。这是蜂巢查询:
此查询创建与相应 mongodb 集合同步的表。通过这个查询 mongo-hadoop 也可以处理文档删除。
mongo-hadoop 是否有任何选项,不处理文档删除?或者,有没有其他工具可以解决这个问题?
提前致谢。
mongodb - Spark:Mongo-Hadoop如何查询
我正在尝试使用 Spark 和 mongo-hadoop 对 MongoDB 进行 $near 查询,其中纬度/经度坐标发生了变化。如何使用 mongo-hadoop 进行查询?
除了像这样的东西:
mongodbConfig.set("mongo.input.query", "{'field':'value'}")
我看不到任何有理智的东西。
任何想法?
mongodb - 与 Spark 一起使用的 MongoHadoop 连接器按分区数重复结果
我正在尝试使用mongo-hadoop连接器将数据读入 spark。问题是,如果我试图设置读取数据的限制,我会在 RDD 中获得限制 * 分区数。
这种行为对于其他限制是可重现的(我总是得到限制 * 3)。
如果我尝试简单地通过 objectId 查询,我会得到类似的行为(它创建一个具有相同对象 * 分区数的 RDD - 在我的情况下,3 个元素具有相同的文档)。
如果有帮助,我还可以提供用于创建 mongo 集合的脚本。
mongodb - 使用 MongoDB Hadoop 驱动程序创建 Hive 表
我正在尝试使用 wiki 站点上提供的驱动程序(jar)从 Hive 数据库连接到 MongoDB 中的集合。以下是我所做的步骤: -
我在名为“Moe”的数据库下在 MongoDB 中创建了一个名为“Diamond”的集合,它有 20 个文档:
我想通过 Hadoop MongoDB 驱动程序从 Hive 连接并通过 Hive 查看这些文档。
我在同一台服务器上安装并配置了 MongoDB 和 Hive。但是我没有看到任何名为 HIVE_CLASPATH 的变量,我想知道它在哪里。
现在,我连接到 Hive,然后通过以下命令将这 2 个 jar 添加到我的类路径中:-(它们已成功添加)
现在我在 HIVE 中创建一个表:-
我尝试了以下方法: - 将 jar 放在每个可能的目录中,但没有任何效果 - 应该丢失的类几乎存在于 jar 文件中。- 哦,是的,MongoStorageHandler 类在 jar 中非常重要。
我已经用这个打破了我的头!如果有人能阐明我可以做些什么来减轻我的焦虑,那就太好了。
再次感谢。马里奥