-2

我们有一个网站,可以生成需要挖掘的 MB/TB 数据。我们应该使用哪些技术来实时处理 terra 字节的数据?Hadoop、Cassandra 适合批处理;但不是实时的。即时的; 意味着在数据发生时处理数据并显示报告。有什么想法或建议吗?

4

3 回答 3

2

你看过Storm 项目吗?它被推特使用。这就像实时 Hadoop。

我们将它用于我们的流处理项目之一。这很棒。文档、开发、部署、可扩展性很棒。我们最近运行了 20K 消息/秒的处理(存储在 Cassandra、修改和广播、计算平均值),它工作可靠并且像魔术一样。绝对值得一试。邮件列表非常友好,我很少用它来提问。

于 2012-08-09T09:54:11.857 回答
1

您可以使用与处理 1 MB 数据相同的技术来处理 TB 数据,但需要更长的时间。

我看不出您打算如何“实时”使用数据,我怀疑您的意思是真实世界。

如果您的意思是快速,那么您需要汇总数据以供人类消费。您一次只能向用户呈现千字节或兆字节的信息。

如果您需要一次加载所有数据,使用内存映射文件可以提高效率。这可用于每秒处理数千万条记录。

于 2012-08-09T10:09:20.120 回答
0

检查此页面:http ://hadoop.apache.org/

列出了在分布式环境中处理大量数据的相关框架/库。

于 2012-08-09T09:58:29.373 回答