问题标签 [mongodb-hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 带有 mongoDB 的 Hadoop:NoClassDefFoundError MongoConfigUtil
我正在学习如何使用 mongodb 数据作为输入在 hadoop 中编写 map/reduce 作业。所以我按照这个例子,但我得到了以下错误:
我一直在寻找几个小时没有任何结果。任何人都可以帮助我。
mongodb - 如何使用适用于 Spark 的 Mongo-Hadoop 连接器删除文档(记录)
我正在使用 Mongo-Hadoop 连接器来处理 Spark 和 MongoDB。我想从 MongoDB 中删除 RDD 中的文档,看起来有一个 MongoUpdateWritable 来支持文档更新。有没有办法使用 Mongo-Hadoop 连接器进行删除?
谢谢
apache-spark - Spark Mongo Hadoop 连接器未映射数据
我正在尝试在 spark 应用程序中映射来自 mongodb-hadoop 连接器的数据。在此之前我没有其他错误,所以我假设与 mongodb 的连接是成功的。我使用以下代码进行映射:
代码因此失败:
mongodb - 如何将子文档数据数组从 mongodb 加载到 hive
我们正在尝试在 hive 中使用 mongodb 数据,文档有子文档数组。如何将复杂数据加载到 hive 中?
这是示例 json:
谢谢...
mongodb - 带有 spark 的 mongo-hadoop 包 upsert 似乎不起作用
我正在尝试使用 MongoDB Connector for Hadoop with Spark 来查询 MongoDB 中的一个集合,并将检索到的所有文档插入到另一个集合中。MongoUpdateWritable 类用于 RDD 的值以更新 MongoDB 中的集合,它有一个 upsert 标志。不幸的是, upsert 标志似乎对执行没有影响。代码执行时没有错误,就好像 upsert 标志设置为 false 一样。
此(Scala)代码连接到本地主机 mongod 进程,使用 mongo 客户端写入一些数据,然后尝试读取该数据并使用 spark 将其写入同一数据库中的另一个集合。在该写入未通过后,代码通过具有相同 ID 的 mongo 客户端将文档写入目标表并运行相同的 spark 作业,以显示 upsert 的更新部分正常工作。
火花版本:1.6.0-cdh5.7.0
hadoop 版本:2.6.0-cdh5.4.7
蒙戈版本:3.2.0
mongo-hadoop-core 版本:2.0.2
对我所缺少的任何见解都会有所帮助。我尝试将输出格式更改为 MongoUpdateWritable 但这对行为没有影响。我知道这可能是一个配置问题,但它似乎是 mongo hadoop 适配器的一个错误,因为使用它们的输入和输出格式编写文档并且 MongoUpdateWritable 类确实可以成功地读写文档。
POM 为方便起见:
apache-spark - Spark 任务不可序列化 Hadoop-MongoDB-Connector 安然
我正在尝试运行适用于 Spark 的 Hadoop-MongoDB 连接器的 EnronMail 示例。因此我使用来自 GitHub 的 java 代码示例: https ://github.com/mongodb/mongo-hadoop/blob/master/examples/enron/spark/src/main/java/com/mongodb/spark/examples/enron /Enron.java 我根据需要调整了服务器名称并添加了用户名和密码。
我收到的错误消息如下:
然后我为 FlatMapFunction 创建了一个新类,并通过这个类扩展了 Enron 类。这无法解决问题。任何想法如何解决这个问题?
java - mongo-hadoop java连接器遍历所有集合
我正在尝试使用这个 hadoop mongo 连接器,
https://github.com/mongodb/mongo-hadoop
我见过很多使用类似这样的东西连接到特定 mongo 集合的例子,
mongodbConfig.set("mongo.input.uri", "mongodb://localhost:27017/dbname.collection");
但是我必须跨不同集合检索记录,因此无法在输入 uri 中指定一个特定集合。我一直在寻找这个,但找不到任何相关的东西。关于如何解决这个问题的任何想法。提前致谢。
mongodb - 使用 MongoDB Spark 连接器根据时间戳进行过滤
我正在使用Spark MongoDB 连接器从 mongodb 获取数据..但是我无法使用聚合管道(rdd.withPipeline)获取如何使用 Spark 在 Mongo 上查询。以下是我想要根据时间戳获取记录的代码& 存储在数据框中:
这是使用 spark 查询时间戳值的正确方法吗?
mongodb - MongoDB Hadoop PIG 脚本抛出“未定义参数:gte”异常
我正在将数据从 mongodb 导入 hdfs 。我目前正在使用 PIG 脚本来加载数据。我需要每 3 小时从 mongodb 获取数据。为此,我需要传入 mongo.input.query 参数。但是我收到以下异常
以下是我的 PIG 脚本
没有 mongo.input.query 查询运行良好。但是我需要每 3 小时根据创建的数据检索数据。
有什么建议么 ?替代方案?
感谢帮助。