我想同步mongodb和hadoop,但是当我从mongodb中删除文档时,这个文档一定不能在hadoop中删除。
我尝试使用 mongo-hadoop 和 hive。这是蜂巢查询:
CREATE EXTERNAL TABLE SubComponentSubmission
(
id STRING,
status INT,
providerId STRING,
dateCreated TIMESTAMP,
subComponentId STRING,
packageName STRING
)
STORED BY 'com.mongodb.hadoop.hive.MongoStorageHandler'
WITH SERDEPROPERTIES('mongo.columns.mapping'=
'{"id":"_id", "status":"Status",
"providerId":"ProviderId",
"dateCreated":"DateCreated",
"subComponentId":"SubComponentPackage.SubComponentId",
"packageName":"SubComponentPackage.PackageName"}'
)
TBLPROPERTIES('mongo.uri'='mongodb://<host>:27017/<db name>.<collection name>');
此查询创建与相应 mongodb 集合同步的表。通过这个查询 mongo-hadoop 也可以处理文档删除。
mongo-hadoop 是否有任何选项,不处理文档删除?或者,有没有其他工具可以解决这个问题?
提前致谢。