我需要一些架构建议。我有一个基于 java 的 webapp,一个基于 JPA 的 ORM 支持一个 mysql 关系数据库。现在,作为应用程序的一部分,我有一个批处理作业,可以相互比较数千条数据库记录。这项工作变得过于耗时,需要并行化。我正在考虑使用 mapreduce 和 hadoop 来做到这一点。但是,我不太确定如何将其集成到我当前的架构中。我认为最简单的初始解决方案是找到一种将数据从 mysql 推送到 hadoop 作业的方法。我对此做了一些初步研究,发现了以下相关信息和可能性:
1) https://issues.apache.org/jira/browse/HADOOP-2536这给出了一些内置 JDBC 支持的有趣概述 2) 这篇文章http://architects.dzone.com/articles/tools-moving-sql -database描述了一些将数据从 mysql 移动到 hadoop 的第三方工具。
老实说,我刚开始学习 hbase 和 hadoop,但我真的不知道如何将其集成到我的 webapp 中。
任何意见是极大的赞赏。干杯,布赖恩