0

我知道 Spark Streaming 使用微批处理来处理数据,但在某些情况下处理时间不到一秒。我的问题是“在那个场景中,它不能被称为纯实时处理而不是接近实时处理吗?”

4

2 回答 2

1

我想说的是,我们只能在收集数据并直接推送到仪表板或系统时谈论指标、警报和优化的实时,没有任何类型的 ETL 过程,实时的目的主要是速度.

每当有一个批处理过程提取历史趋势或基准测试时,尽管它需要不到一秒的时间,但它不是实时的,而是接近实时的,这是因为他们谈论的是接近实时的。

所以,要回答你的问题,我会说不,是近乎实时的,因为你正在批处理和处理。

我希望它有所帮助。

胡安

于 2017-10-11T04:39:44.973 回答
1

Spark Streaming 将数据流分成 X 秒的批次,称为 Dstreams,内部是一个 RDD 序列,每个批次间隔一个。每个 RDD 都包含在批处理间隔期间收到的记录。因为它的小批量处理称为近实时而不是实时。

于 2017-10-11T04:59:03.573 回答