scala - 使用 HTTP 请求作为管道

Question

我正在摆脱Scalding的困扰，我需要从互联网上获取一些 URL。

看起来，Scala 并没有在其标准库中提供单个类来执行 HTTP 请求。

由于我见过的许多裸 Java 解决方案似乎过于冗长，我想知道我是否可以只使用 Scalding Pipe 机器来执行此操作，或者这不是它打算用于的那种任务。

还。在使用诸如Dispatch或scalaj-http之类的外部库的情况下：我可以直接将结果获取到管道还是涉及更多管道？

score 1 · Accepted Answer

我不确定在 Map/Reduce 期间直接获取 URL 是否有意义。我宁愿使用其他机制（例如 Akka）获取 URL 并将内容存储在 HDFS 中（例如通过 Kafka），然后在该数据之上运行 Scalding 作业。

您可以使用Playframework 的 WS库（现在作为独立模块提供）来获取 URL。有关更多信息，请参阅文档。

1 回答 1