1

我试图从大量事务数据中找出信息数据模式。

通常,我的数据是具有明确定义的列的记录集(如发送者、接收者、金额、货币地址等 - 我有大约 40-50 个不同的列),数据量将是数百万(可能是数百万)记录,我的目标是从此类中生成信息丰富的交易模式——谁购买特定物品最多,交易量最高的接收者,费用模式,谁从同一个发送者那里获得更多交易等。

早些时候,我计划在关系数据库(Oracle/MySQL)中加载数据并编写复杂的 SQL 来获取这些信息,但是通过在我的概念验证期间查看容量,它似乎没有太大的可扩展性。

我试图获取有关使用 Hadoop 等进行分布式数据处理的更多信息。我刚开始阅读 Hadoop,直到我初步了解 Hadoop 非常适合非结构化数据处理,并且可能对关系数据处理没有多大用处。

关于开源技术的任何指示/建议,我可以快速尝试。

4

1 回答 1

0

Hadoop 可用于结构化/非结构化数据处理。此外,它不是像传统 RDBMS 那样维护关系、索引的数据库。

数百万行HBaseCassandra与 Hive相结合或不结合Hive可用于批量查询。Hadoop 中的批量查询已经存在了一段时间并且已经成熟。

对于交互式查询,可以使用DrillImapala 。请注意,Drill 开发刚刚开始并且处于孵化器阶段。同时,Cloudera 刚刚宣布了 Imapala。这里有一些关于实时引擎的有趣信息。

请注意,还有许多其他开源框架可能符合要求,但这里只提到了其中的几个。根据详细的需求分析和不同框架的优缺点,必须选择合适的框架。

于 2012-10-25T03:40:15.487 回答