Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我们可以使用 hadoop on flow 生成输出吗?我有一个大文件,其中包含日志和约会 ID。如果我使用传统的 RDBMS,我可以获得约会 ID,但需要 1 或 2 小时。
日志文件大小为800 GB
On flow 表示当管理员登录系统时显示此约会 ID。我可以运行 Hadoop onflow(在应用程序运行时运行 map reduce)
Hadoop 用于面向批处理的数据处理,而不是用于实时或临时分析。对于数据的实时分析,有 S4、Twitter Storm、LinkedIn Samza 等框架。对于即席查询,有诸如 Drill、Imapala 等框架。
看起来要求更接近临时查询,而 Hadoop 不符合要求。