首先,我想澄清一下我正在学习 Hive 和 Hadoop(以及一般的大数据),所以请原谅缺乏适当的词汇。
我正在着手进行一个巨大的(至少对我而言)项目,该项目需要处理大量数据,这些数据我过去不习惯处理,因为我一直主要使用 MySQL。
对于这个项目,一系列传感器将每小时 5 次(每天 15.000.000.000 个)产生大约 125.000.000 个数据点,这是我插入到每个 MySQL 表中的所有数据加起来的几倍。
我知道一种方法是使用 Hadoop MapReduce 和 Hive 来查询和分析数据。
我面临的问题是,据我所知,我理解 Hive 的运行主要类似于“cron 作业”,而不是实时查询,这可能需要数小时并需要不同的基础架构。
我想根据 Hive 查询的结果创建 MySQL 表,因为最多需要实时查询的数据大约是 1.000.000.000 行,但我想知道这是否是正确的方法,或者我应该研究其他一些技术。
有没有我应该研究专门为大数据实时查询而创建的技术?
任何提示将不胜感激!