问题标签 [amazon-data-pipeline]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
982 浏览

amazon-web-services - 使用 AWS 数据管道处理 s3 访问日志

我的用例是定期处理 S3 访问日志(具有这 18 个字段)并推送到 RDS 中的表。我正在使用 AWS 数据管道来执行此任务,以便每天运行以处理前一天的日志。

我决定将任务分为两个活动 1. Shell 命令活动:处理 s3 访问日志并创建 csv 文件 2. Hive 活动:从 csv 文件读取数据并插入 RDS 表。

我的输入 s3 存储桶有很多日志文件,因此由于暂存时出现内存不足错误,第一个活动失败。但是我不想暂存所有日志,暂存前一天的日志对我来说就足够了。我在互联网上搜索,但没有得到任何解决方案。我如何做到这一点?我的解决方案是最佳解决方案吗?是否存在比这更好的解决方案?任何建议都会有所帮助

提前致谢

0 投票
1 回答
284 浏览

amazon-web-services - 在使用 aws 管道加载 redshift 表时保留现有文件

我正在配置 AWS 管道以使用 JSON S3 文件中的数据加载红移表。

我正在使用 RedshiftActivity,一切都很好,直到我尝试配置 KEEP_EXISTING 加载方法。我真的不想在每次加载时截断我的表,而是保留现有信息并添加新记录。

Redshift 活动似乎需要在表中定义 PRIMARY KEY 才能工作(OK)......现在它还要求我配置 DISTRIBUTION KEY,但我对 EVEN 分发感兴趣,似乎 DISTRIBUTION KEY 不能与 EVEN 分发样式一起使用.

我可以使用分发密钥模拟 EVEN 分发吗?

谢谢。

0 投票
1 回答
660 浏览

python - 带有 python 脚本的 AWS ETL

我正在尝试在使用 python 的 AWS 平台上创建一个基本的 ETL。在 S3 存储桶(我们称之为“A”)中,我有很多原始日志文件,经过 gzip 压缩。我想要做的是定期(=数据管道)解压缩,由python脚本处理,该脚本将重新格式化每一行的结构,并将其输出到另一个S3存储桶(“B”),最好作为gzips源自 A 中相同 gzip 的相同日志文件,但这不是强制性的。

我编写了它需要做的python脚本(从stdin接收每一行)并输出到stdout(或stderr,如果一行无效。在这种情况下,我希望它被写入另一个桶, “C”)。

我正在摆弄数据管道,尝试运行一个 shell 命令作业,以及一个使用 python 脚本进行排序的 hive 作业。EMR 集群已创建、运行、完成,没有失败或错误,也没有创建日志,我不明白出了什么问题。另外,我希望在处理并写入目标或错误的日志存储桶后删除原始日志。

有没有人有这种配置的经验?和建议的话?

0 投票
1 回答
11467 浏览

amazon-web-services - AWS CLI 移动路径中带有通配符(星号)的文件

我正在尝试使用 AWS 数据管道中的活动将文件从 s3 位置移动到另一个位置。

我正在使用的命令是:

但我收到以下错误:

但是,如果我用特定的目录名称替换“*”,它将起作用。问题是我并不总是知道目录的名称,所以我希望我可以使用“*”作为通配符。

0 投票
2 回答
3202 浏览

amazon-web-services - 将 XML 导入 Dynamodb

我有一组非常大的 XML 文件,我想在进行一些数据按摩后将它们导入 dynamodb。

这可以通过 AWS Data Pipeline 或其他工具实现吗?目前,这是通过运行 ETL 过程的程序手动完成的。

0 投票
1 回答
105 浏览

hadoop - 通过 aws EMR 在 Kinesis 流上运行 hadoop pig 脚本

我正在尝试使用 AWS EMR 上的猪脚本批处理运动流中的一些数据。我只需要将流数据分组并将其移动到 s3。我试图每隔几个小时运行一次。起初,它似乎非常适合 AWS Data Pipeline,但我不知道如何传入迭代编号以用于 kinesis 检查点。看起来没有任何方法可以增加一个数字以传递给 pig 脚本。我在这里看到了这个例子,它涉及一个永远在线的集群和一个 crontab 脚本,它增加了迭代次数。有没有办法使用我缺少的 AWS Data Pipeline 来实现这一点?

0 投票
2 回答
660 浏览

apache-spark - 如何在 5 分钟间隔内对 spark 流产生的 hdfs 上的每小时聚合数据运行 Spark 或 Mapreduce 作业

我有一个场景,我使用 spark 流从 Kinesis 服务收集数据,使用 https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html

现在在流媒体中,我正在对数据进行一些聚合并发送到 hdfs。到目前为止我能够完成它..现在我想要一种方法,我可以收集所有最后一小时数据或每小时数据并提供给新的 spark 作业或 mapreduce 作业并再次进行一些聚合并发送到目标分析服务。

查询: 1. 如何从 hdfs 获取每小时聚合数据到下一个 spark 作业或 mapreduce 或任何数据处理。在我们从火花发出之前,我们需要一些分区吗?2.我们可以为此使用亚马逊数据管道吗?但是假设如果我们在 /user/hadoop/ 文件夹上发出没有分区的数据。数据管道如何理解它需要选择最后一小时的数据。我们可以通过时间戳等对文件夹名称应用一些限制吗?

0 投票
2 回答
2512 浏览

xml - 将 XML 数据导入 AWS

我正在寻找 AWS 上可用的最佳工具来安排将查询外部 HTTP 服务器的任务/作业。外部服务器使用 XML 文件进行回复,因此理想情况下,这些文件将存储在 S3 上,然后进行处理,并将完善的数据移至 Redshift。我正在研究 AWS Data Pipeline 和 Amazon EMR,但它们主要专注于在 AWS 内移动数据。有什么建议吗?谢谢

0 投票
1 回答
1577 浏览

amazon-web-services - 如何使用 Amazon Data Pipeline 和 Hive 从 DynamoDB 中过滤掉数据?

目前,日志存储在 DynamoDB 中。我们希望从该表中过滤掉不必要的行并将输出存储在不同的表中(fe 排除“value”字段包含“bot”、“python”、“requests”等的行)。

此时我想出了这样的东西(aws模板):

但是我不明白过滤器查询应该是什么样子(我试过一个 - 它说该行只有“项目”,而我的表有 2 个字段 - id 和 value)。

0 投票
1 回答
1255 浏览

java - 数据管道的前提条件

我在 json 脚本上做了一些活动。需要在其上添加前提条件。如何在 json 脚本上使用前置条件。

在前提条件下,我需要检查 mysql db 字段。一旦标记为'Y',开始执行否则应该停止执行。