我正在摆脱Scalding的困扰,我需要从互联网上获取一些 URL。
看起来,Scala 并没有在其标准库中提供单个类来执行 HTTP 请求。
由于我见过的许多裸 Java 解决方案似乎过于冗长,我想知道我是否可以只使用 Scalding Pipe 机器来执行此操作,或者这不是它打算用于的那种任务。
还。在使用诸如Dispatch或scalaj-http之类的外部库的情况下:我可以直接将结果获取到管道还是涉及更多管道?
我不确定在 Map/Reduce 期间直接获取 URL 是否有意义。我宁愿使用其他机制(例如 Akka)获取 URL 并将内容存储在 HDFS 中(例如通过 Kafka),然后在该数据之上运行 Scalding 作业。
您可以使用Playframework 的 WS库(现在作为独立模块提供)来获取 URL。有关更多信息,请参阅文档。