到目前为止,我对 Storm 的了解是用来分析 Twitter 推文以获取热门话题,但它可以用来分析来自政府人口普查的数据吗?由于数据是结构化的,storm 是否适合这种情况?
问问题
48 次
2 回答
0
Storm 专为流式数据处理而设计,数据源源不断。您的应用程序拥有它需要处理的所有可用数据,因此批处理更适合。如果数据是结构化的,您可以使用 R 或其他工具进行分析,或者编写脚本来转换数据,以便它可以作为输入进入 R。如果它是一个庞大的数据集,并且你想更快地处理它,那么只有考虑进入 Hadoop 并根据你必须做的分析编写你的程序。仅当您提供有关数据大小的更多详细信息以及您希望对其进行什么样的分析时,才可能提出架构建议。如果它是一个较小的数据集,那么 hadoop 和 Storm 对于必须解决的问题都可能是过度杀伤力。--gtaank
于 2014-07-06T23:42:33.107 回答
0
Storm 通常用于处理无休止的数据流,例如日志、twitter 流,或者在我的例子中是网络爬虫的输出。
我相信人口普查类型数据将采用固定报告的形式,可以将其视为流,但可能更适合通过 Map Reduce 之类的东西,使用 Hadoop 进行处理(可能使用 cacading 或 scalding 作为抽象层细节)。
数据的结构化性质不会阻止使用任何这些技术,这与您要解决的问题更相关。
于 2014-07-06T20:04:46.110 回答