scala - 将元素从外部推送到 fs2 中的反应流

Question

我有一个外部（即我无法更改）Java API，如下所示：

public interface Sender {
    void send(Event e);
}

我需要实现一个Sender接受每个事件，将其转换为 JSON 对象，将其中一些事件收集到一个包中，并通过 HTTP 发送到某个端点。这一切都应该异步完成，不send()阻塞调用线程，使用一些固定大小的缓冲区，如果缓冲区已满，则丢弃新事件。

使用 akka-streams 这很简单：我创建一个阶段图（使用 akka-http 发送 HTTP 请求），将其物化并使用物化ActorRef将新事件推送到流中：

lazy val eventPipeline = Source.actorRef[Event](Int.MaxValue, OverflowStrategy.fail)
  .via(CustomBuffer(bufferSize))  // buffer all events
  .groupedWithin(batchSize, flushDuration)  // group events into chunks
  .map(toBundle)  // convert each chunk into a JSON message
  .mapAsyncUnordered(1)(sendHttpRequest)  // send an HTTP request
  .toMat(Sink.foreach { response =>
    // print HTTP response for debugging
  })(Keep.both)

lazy val (eventsActor, completeFuture) = eventPipeline.run()

override def send(e: Event): Unit = {
  eventsActor ! e
}

这CustomBuffer是一个自定义GraphStage，它与提供的库非常相似，Buffer但根据我们的特定需求量身定制；对于这个特定的问题，这可能无关紧要。

如您所见，与非流代码的流交互非常简单——特征!上的方法ActorRef是异步的，不需要调用任何额外的机制。然后通过整个反应管道处理发送给参与者的每个事件。此外，由于 akka-http 的实现方式，我什至可以免费获得连接池，因此与服务器打开的连接不超过一个。

但是，我找不到正确使用 FS2 执行相同操作的方法。即使放弃缓冲的问题（我可能需要编写一个自定义Pipe实现来完成我们需要的其他事情）和 HTTP 连接池，我仍然坚持更基本的事情——即如何将数据推送到“来自外部”的反应流。

我能找到的所有教程和文档都假设整个程序发生在某个效果上下文中，通常是IO. 这不是我的情况 - send()Java 库在未指定的时间调用该方法。因此，我不能将所有内容都保存在一个IO操作中，我必须在send()方法中完成“推送”操作，并将反应流作为一个单独的实体，因为我想聚合事件并希望池 HTTP 连接（我相信自然地与反应流相关联）。

我假设我需要一些额外的数据结构，比如Queue. fs2 确实有某种fs2.concurrent.Queue，但同样，所有文档都显示了如何在单个IO上下文中使用它，所以我假设做类似的事情

val queue: Queue[IO, Event] = Queue.unbounded[IO, Event].unsafeRunSync()

然后queue在流定义中使用，然后在send()方法中单独使用，并进一步unsafeRun调用：

val eventPipeline = queue.dequeue
  .through(customBuffer(bufferSize))
  .groupWithin(batchSize, flushDuration)
  .map(toBundle)
  .mapAsyncUnordered(1)(sendRequest)
  .evalTap(response => ...)
  .compile
  .drain

eventPipeline.unsafeRunAsync(...)  // or something

override def send(e: Event) {
  queue.enqueue(e).unsafeRunSync()
}

不是正确的方法，很可能甚至行不通。

所以，我的问题是，如何正确使用 fs2 来解决我的问题？

score 2 · Accepted Answer

考虑以下示例：

import cats.implicits._
import cats.effect._
import cats.effect.implicits._
import fs2._
import fs2.concurrent.Queue

import scala.concurrent.ExecutionContext
import scala.concurrent.duration._

object Answer {
  type Event = String

  trait Sender {
    def send(event: Event): Unit
  }

  def main(args: Array[String]): Unit = {
    val sender: Sender = {
      val ec = ExecutionContext.global
      implicit val cs: ContextShift[IO] = IO.contextShift(ec)
      implicit val timer: Timer[IO] = IO.timer(ec)

      fs2Sender[IO](2)
    }

    val events = List("a", "b", "c", "d")
    events.foreach { evt => new Thread(() => sender.send(evt)).start() }
    Thread sleep 3000
  }

  def fs2Sender[F[_]: Timer : ContextShift](maxBufferedSize: Int)(implicit F: ConcurrentEffect[F]): Sender = {
    // dummy impl
    // this is where the actual logic for batching
    //   and shipping over the network would live
    val consume: Pipe[F, Event, Unit] = _.evalMap { event =>
      for {
        _ <- F.delay { println(s"consuming [$event]...") }
        _ <- Timer[F].sleep(1.seconds)
        _ <- F.delay { println(s"...[$event] consumed") }
      } yield ()
    }

    val suspended = for {
      q <- Queue.bounded[F, Event](maxBufferedSize)
      _ <- q.dequeue.through(consume).compile.drain.start
      sender <- F.delay[Sender] { evt =>
        val enqueue = for {
          wasEnqueued <- q.offer1(evt)
          _ <- F.delay { println(s"[$evt] enqueued? $wasEnqueued") }
        } yield ()
        enqueue.toIO.unsafeRunAsyncAndForget()
      }
    } yield sender

    suspended.toIO.unsafeRunSync()
  }
}

主要思想是使用来自 fs2 的并发队列。注意，上面的代码表明Sender接口和逻辑都不main能改变。只能Sender换出接口的实现。

score 1 · Accepted Answer

我对那个库没有太多经验，但它应该看起来像这样：

import cats.effect.{ExitCode, IO, IOApp}
import fs2.concurrent.Queue

case class Event(id: Int)

class JavaProducer{

  new Thread(new Runnable {
    override def run(): Unit = {
      var id = 0
      while(true){
        Thread.sleep(1000)
        id += 1
        send(Event(id))
      }
    }
  }).start()

  def send(event: Event): Unit ={
    println(s"Original producer prints $event")
  }
}

class HackedProducer(queue: Queue[IO, Event]) extends JavaProducer {
  override def send(event: Event): Unit = {
    println(s"Hacked producer pushes $event")
    queue.enqueue1(event).unsafeRunSync()
    println(s"Hacked producer pushes $event - Pushed")
  }

}

object Test extends IOApp{
  override def run(args: List[String]): IO[ExitCode] = {
    val x: IO[Unit] = for {
      queue <- Queue.unbounded[IO, Event]
      _ = new HackedProducer(queue)
      done <- queue.dequeue.map(ev => {
        println(s"Got $ev")
      }).compile.drain
    } yield done
    x.map(_ => ExitCode.Success)
  }

}

score 0 · Accepted Answer

我们可以创建一个有界队列，该队列将使用来自发送方的元素并使它们可用于 fs2 流处理。


import cats.effect.IO
import cats.effect.std.Queue

import fs2.Stream

trait Sender[T]:
    def send(e: T): Unit

object Sender:
     def apply[T](bufferSize: Int): IO[(Sender[T], Stream[IO, T])] =
         for
             q <- Queue.bounded[IO, T](bufferSize)
         yield
             val sender: Sender[T] = (e: T) => q.offer(e).unsafeRunSync()
             def stm: Stream[IO, T] = Stream.eval(q.take) ++ stm
             (sender, stm)

然后我们将有两个目的 - 一个用于 Java 世界，将新元素发送到Sender. 另一个 - 用于 fs2 中的流处理。

class TestSenderQueue:

    @Test def testSenderQueue: Unit =
        val (sender, stream) = Sender[Int](1)
          .unsafeRunSync()// we have to run it preliminary to make `sender` available to external system
        
        val processing = 
            stream
                .map(i => i * i)
                .evalMap{ ii => IO{ println(ii)}}
        sender.send(1)
                
        processing.compile.toList.start//NB! we start processing in a separate fiber
            .unsafeRunSync() // immediately right now.
        sender.send(2)
        Thread.sleep(100)
        (0 until 100).foreach(sender.send)
        println("finished")

请注意，我们在当前线程中推送数据，并且必须在单独的线程中运行 fs2 ( .start)。

scala - 将元素从外部推送到 fs2 中的反应流

3 回答 3

Related

Reference