我已经开始了一个分析项目。用例是了解客户购买模式和数据源,如 Web 日志、关系数据库(包含产品主数据、客户主数据)。关系数据库团队,hadoop 团队是完全不同的。在架构讨论期间,讨论了主数据(产品、客户、)将是一次性加载,增量更新将是从 oracle 到 hdfs 的每日 sqoop,并且使用 Hive 需要生成当前视图(包含所有最新产品变化)。从产品详细信息开始。
- Oracle 端的产品主控大约为 10G。
- 每日增量从 5 MB 到 100 MB 不等。
根据我的理解,从长远来看,创建这样的小文件会对名称节点造成负担。
当有人遇到这样的解决方案时,你是如何处理它的?