在设计用于推文分析的系统时,我需要建议。
目标:对于给定的主题标签,找出与其他主题标签同时出现的频率。找出每小时模式。我们应该能够回答这种格式的查询:对于给定的日期(比如 2013 年 4 月 13 日)和给定的一小时时间段(比如下午 3:00-4:00),前 5 个同时发生的事件是什么带有“#iPhone”的标签。
我的方法:我正在使用“twitter4j”库来访问 twitter 数据。我可以为一个电话查询并获得 100 条推文(推特只允许这么多)。我可以提取时间和其他相关数据。我计划有一个线程,每 5 分钟查询一次 twitter。这是对观察者每小时模式进行的。这是我感到震惊的地方:我应该如何将这些信息存储在数据库中?我是否应该维护一个哈希图,其中键为和值作为“#iPhone”出现的频率。或者我应该将未聚合的数据直接存储在数据库中吗?向观察者每小时模式查询“twitter”的最佳方式是什么?我应该将时间以“纪元”格式存储在 DB 中还是作为日期一列和小时作为 DB 中的另一列?
非常感谢您的宝贵意见。