apache-spark - 如何在 Spark 中处理增量 S3 文件

Question

我制作了以下管道：任务管理器 -> SQS -> scraper worker (我的应用程序) -> AWS Firehose -> S3 文件 -> Spark ->(?) Redshift。

我正在尝试解决/改进的一些事情，我很乐意得到指导：

刮板可能会获得重复的数据，并将它们再次刷新到消防软管，这将导致火花中的重复。我应该在开始计算之前使用 Distinct 函数在火花中解决这个问题吗？
我不会删除 S3 处理的文件，因此数据会越来越大。这是一个好习惯吗？（将 s3 作为输入数据库）或者我应该处理每个文件并在 spark 完成后将其删除？目前我正在做sc.textFile("s3n://...../*/*/*")- 这将收集我所有的存储桶文件并运行计算。
要将结果放在 Redshift（或 s3）中 -> 我该如何逐步执行此操作？也就是说，如果 s3 越来越大，redshift 就会有重复的数据......我之前总是要刷新它吗？如何？

score 0 · Accepted Answer

我以前遇到过这些问题，尽管不是在一个管道中。这是我所做的。

删除重复项

一种。我使用BloomFilter来删除本地重复。请注意，文档相对不完整，但您可以轻松保存/加载/联合/相交布隆过滤器对象。您甚至可以reduce对过滤器进行操作。

湾。如果您将数据直接从 Spark 保存到 RedShift，您可能需要花费一些时间和精力来更新当前批次的 BloomFilter、广播它，然后进行过滤以确保全局没有重复。在我在 RDS 中使用 UNIQUE 约束并忽略该错误之前，但不幸的是 RedShift 不遵守该约束。
3. 数据越来越大

我使用 EMR 集群运行s3-dist-cp 命令来移动和合并数据（因为通常有很多小日志文件，这会影响 Spark 的性能）。如果您碰巧使用 EMR 来托管 Spark 集群，只需在分析之前添加一个步骤，将数据从一个存储桶移动到另一个存储桶。该步骤将command-runner.jarjar 作为自定义 jar，命令看起来像

s3-dist-cp --src=s3://INPUT_BUCKET/ --dest=s3://OUTPUT_BUCKET_AND_PATH/ --groupBy=".*\.2016-08-(..)T.*" --srcPattern=".*\.2016-08.*" --appendToLastFile --deleteOnSuccess

请注意，原始distcp不支持合并文件。

通常，您应该尽量避免将已处理和未处理的数据放在同一个存储桶（或至少是路径）中。

apache-spark - 如何在 Spark 中处理增量 S3 文件

1 回答 1

Related

Reference