我开始学习一些关于大数据的东西,重点是预测分析,为此我有一个我想实施的案例研究:
我有一个服务器健康信息数据集,每 5 秒轮询一次。我想显示检索到的数据,但更重要的是:我想运行以前构建的机器学习模型并显示结果(警告服务器将崩溃)。
机器学习模型将由机器学习专家构建,因此完全超出范围。我的工作是将机器学习模型集成到一个运行模型的平台中,并在一个漂亮的仪表板中显示结果。
我的问题是这个系统的“大图”架构:我看到所有部分都已经存在(cloudera+mahout),但是我缺少一个简单的集成解决方案来满足我的所有需求,我不相信最先进的技术是做一些自定义软件...
那么,任何人都可以对这样的生产系统有所了解(通过预测分析显示数据)吗?参考架构?教程/文档?
笔记:
我研究了一些相关技术:cloudera/hadoop、pentaho、mahout 和 weka。例如,我知道 Pentaho 能够存储大数据并对该数据运行临时 Weka 分析。使用 cloudera 和 Impala,数据专家还可以运行临时查询并分析数据,但这不是我的目标。我希望我的系统能够运行 ML 模型,并在检索到的数据旁边的漂亮仪表板中显示结果。而且我正在寻找一个已经允许这种用法而不是自定义构建的平台。
我专注于 Pentaho,因为它似乎很好地集成了机器学习,但我阅读的每个教程更多地是关于“临时”ML 分析,而不是实时。欢迎任何关于该主题的教程。
我不介意开源或商业解决方案(试用版)
根据具体情况,这可能不是大数据:也欢迎更多“传统”解决方案。
这里的实时也是一个广义的术语:如果 ML 模型具有良好的性能,每 5 秒运行一次就足够了。
ML 模型是静态的(不是实时更新或改变其行为)
我不是在为我的示例寻找定制的应用程序,因为我的重点是大局:具有预测分析通用平台的大数据。