在实践中(不是理论)小批量与实时流有什么区别?从理论上讲,我理解小批量是在给定的时间范围内进行批处理的东西,而实时流更像是在数据到达时做一些事情,但我最大的问题是为什么没有具有 epsilon 时间范围(比如一毫秒)的小批量,或者我想了解为什么一个比另一个更有效的解决方案?
我最近遇到了一个例子,其中小批量(Apache Spark)用于欺诈检测和实时流(Apache Flink)用于欺诈预防。有人还评论说小批量不是预防欺诈的有效解决方案(因为目标是防止交易发生)现在我想知道为什么小批量(Spark)不会那么有效?为什么以 1 毫秒的延迟运行 mini-batch 无效?批处理是一种无处不在的技术,包括操作系统和内核 TCP/IP 堆栈,其中磁盘或网络的数据确实被缓冲了,那么这里有什么令人信服的因素说一个比另一个更有效?