Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
保持 HDFS 上的平面文件与可能具有行更新的大型数据库表同步的最佳方法是什么?
sqoop 之类的工具似乎很有用,因为它们允许从表中增量提取新行,但是我看不到处理行更新的简单方法。
我们可以使用哪些技术来有效地处理行更新?每晚倾倒整张桌子是我们宁愿避免的。
我更喜欢在 mysql 表中有一个 updated_at 字段,以便每晚只获取更改的数据。之后,我做了一个简单的 map reduce 以在(合并)旧状态上应用更改。
这里有几个建议: