有一个类似的问题Large data - storage and query 但我认为我的问题更难。
我有一个庞大的数据集,为了简化问题,假设每条记录有 3 个字段,
日期、地点、对象
表示在哪一天,对象访问了哪个地方。
每天可以有 5000 万条新记录。我需要保留 100 天的数据。
查询如下:
- 给定一个日期范围,列出所有访问过特定位置 X 的对象;
- 给定日期范围,列出特定对象访问过的所有位置。
我应该如何设计这个?有没有可能给出解决方案?我应该尝试任何工具吗?我可以使用 mongodb 或 hadoop 吗?
更重要的是,查询应该不会花费很长时间,因为它将从前端查询。
谢谢。