“批量处理”是指一次处理所有事实的静态数据集(如在 CSV 中)以提取知识。在“在线”时,它使用实时支持存储:事实在发生时添加(“X 购买 Y”),并在此实时数据上发生查询(“您会向正在查看 y 的人推荐什么?” )。
我(错误地)使用了“实时”一词,但我并不是说结果必须在固定时间内出现。('''编辑:上面的实时替换为在线''')
我想到了一个使用实时数据的推荐引擎。但是,我遇到的所有在线资源(例如 SO 问题)都没有区分实时数据挖掘包和批量处理数据挖掘包。我不得不单独搜索:
- 从 Lucene/Solr 和其他实时数据集(在线)读取的 Carrot2
- Knime 对静态文件(批量)执行计划执行
- Mahout 在 Hadoop(以及未来基于 Pregel 的 Giraph)上运行(在线?)
- 与 Cassandra 集成的商业软件包(在线?)
什么是在线数据挖掘包?
文献没有区分在线和批量处理包有什么原因吗?还是所有实际的数据挖掘本质上都是批量操作?