“amazon-data-pipeline”的相关标签问题

0 投票

3 回答

982 浏览

amazon-web-services - 使用 AWS 数据管道处理 s3 访问日志

我的用例是定期处理 S3 访问日志（具有这 18 个字段）并推送到 RDS 中的表。我正在使用 AWS 数据管道来执行此任务，以便每天运行以处理前一天的日志。

我决定将任务分为两个活动 1. Shell 命令活动：处理 s3 访问日志并创建 csv 文件 2. Hive 活动：从 csv 文件读取数据并插入 RDS 表。

我的输入 s3 存储桶有很多日志文件，因此由于暂存时出现内存不足错误，第一个活动失败。但是我不想暂存所有日志，暂存前一天的日志对我来说就足够了。我在互联网上搜索，但没有得到任何解决方案。我如何做到这一点？我的解决方案是最佳解决方案吗？是否存在比这更好的解决方案？任何建议都会有所帮助

提前致谢

2015-07-07T11:40:54.963

0 投票

1 回答

284 浏览

amazon-web-services - 在使用 aws 管道加载 redshift 表时保留现有文件

我正在配置 AWS 管道以使用 JSON S3 文件中的数据加载红移表。

我正在使用 RedshiftActivity，一切都很好，直到我尝试配置 KEEP_EXISTING 加载方法。我真的不想在每次加载时截断我的表，而是保留现有信息并添加新记录。

Redshift 活动似乎需要在表中定义 PRIMARY KEY 才能工作（OK）......现在它还要求我配置 DISTRIBUTION KEY，但我对 EVEN 分发感兴趣，似乎 DISTRIBUTION KEY 不能与 EVEN 分发样式一起使用.

我可以使用分发密钥模拟 EVEN 分发吗？

谢谢。

amazon-web-services amazon-redshift amazon-data-pipeline

2015-07-09T09:10:52.730

0 投票

1 回答

660 浏览

python - 带有 python 脚本的 AWS ETL

我正在尝试在使用 python 的 AWS 平台上创建一个基本的 ETL。在 S3 存储桶（我们称之为“A”）中，我有很多原始日志文件，经过 gzip 压缩。我想要做的是定期（=数据管道）解压缩，由python脚本处理，该脚本将重新格式化每一行的结构，并将其输出到另一个S3存储桶（“B”），最好作为gzips源自 A 中相同 gzip 的相同日志文件，但这不是强制性的。

我编写了它需要做的python脚本（从stdin接收每一行）并输出到stdout（或stderr，如果一行无效。在这种情况下，我希望它被写入另一个桶， “C”）。

我正在摆弄数据管道，尝试运行一个 shell 命令作业，以及一个使用 python 脚本进行排序的 hive 作业。EMR 集群已创建、运行、完成，没有失败或错误，也没有创建日志，我不明白出了什么问题。另外，我希望在处理并写入目标或错误的日志存储桶后删除原始日志。

有没有人有这种配置的经验？和建议的话？

python amazon-web-services amazon-s3 amazon-emr amazon-data-pipeline

2015-07-10T16:41:44.530

0 投票

1 回答

11467 浏览

amazon-web-services - AWS CLI 移动路径中带有通配符（星号）的文件

我正在尝试使用 AWS 数据管道中的活动将文件从 s3 位置移动到另一个位置。

我正在使用的命令是：

但我收到以下错误：

但是，如果我用特定的目录名称替换“*”，它将起作用。问题是我并不总是知道目录的名称，所以我希望我可以使用“*”作为通配符。

amazon-web-services amazon-s3 amazon-data-pipeline

2015-07-25T18:06:10.260

0 投票

2 回答

3202 浏览

amazon-web-services - 将 XML 导入 Dynamodb

我有一组非常大的 XML 文件，我想在进行一些数据按摩后将它们导入 dynamodb。

这可以通过 AWS Data Pipeline 或其他工具实现吗？目前，这是通过运行 ETL 过程的程序手动完成的。

amazon-web-services etl amazon-data-pipeline

2015-08-05T15:59:10.020

0 投票

1 回答

105 浏览

hadoop - 通过 aws EMR 在 Kinesis 流上运行 hadoop pig 脚本

我正在尝试使用 AWS EMR 上的猪脚本批处理运动流中的一些数据。我只需要将流数据分组并将其移动到 s3。我试图每隔几个小时运行一次。起初，它似乎非常适合 AWS Data Pipeline，但我不知道如何传入迭代编号以用于 kinesis 检查点。看起来没有任何方法可以增加一个数字以传递给 pig 脚本。我在这里看到了这个例子，它涉及一个永远在线的集群和一个 crontab 脚本，它增加了迭代次数。有没有办法使用我缺少的 AWS Data Pipeline 来实现这一点？

hadoop amazon-web-services amazon-emr amazon-kinesis amazon-data-pipeline

2015-08-12T18:44:41.023

0 投票

2 回答

660 浏览

apache-spark - 如何在 5 分钟间隔内对 spark 流产生的 hdfs 上的每小时聚合数据运行 Spark 或 Mapreduce 作业

我有一个场景，我使用 spark 流从 Kinesis 服务收集数据，使用 https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html

现在在流媒体中，我正在对数据进行一些聚合并发送到 hdfs。到目前为止我能够完成它..现在我想要一种方法，我可以收集所有最后一小时数据或每小时数据并提供给新的 spark 作业或 mapreduce 作业并再次进行一些聚合并发送到目标分析服务。

查询： 1. 如何从 hdfs 获取每小时聚合数据到下一个 spark 作业或 mapreduce 或任何数据处理。在我们从火花发出之前，我们需要一些分区吗？2.我们可以为此使用亚马逊数据管道吗？但是假设如果我们在 /user/hadoop/ 文件夹上发出没有分区的数据。数据管道如何理解它需要选择最后一小时的数据。我们可以通过时间戳等对文件夹名称应用一些限制吗？

apache-spark hive spark-streaming amazon-data-pipeline

2015-08-21T07:23:07.253

0 投票

2 回答

2512 浏览

xml - 将 XML 数据导入 AWS

我正在寻找 AWS 上可用的最佳工具来安排将查询外部 HTTP 服务器的任务/作业。外部服务器使用 XML 文件进行回复，因此理想情况下，这些文件将存储在 S3 上，然后进行处理，并将完善的数据移至 Redshift。我正在研究 AWS Data Pipeline 和 Amazon EMR，但它们主要专注于在 AWS 内移动数据。有什么建议吗？谢谢

xml amazon-web-services amazon-emr amazon-data-pipeline

2015-08-28T05:36:15.910

0 投票

1 回答

1577 浏览

amazon-web-services - 如何使用 Amazon Data Pipeline 和 Hive 从 DynamoDB 中过滤掉数据？

目前，日志存储在 DynamoDB 中。我们希望从该表中过滤掉不必要的行并将输出存储在不同的表中（fe 排除“value”字段包含“bot”、“python”、“requests”等的行）。

此时我想出了这样的东西（aws模板）：

但是我不明白过滤器查询应该是什么样子（我试过一个 - 它说该行只有“项目”，而我的表有 2 个字段 - id 和 value）。

amazon-web-services hive amazon-data-pipeline

2015-09-08T15:42:33.053

0 投票

1 回答

1255 浏览

java - 数据管道的前提条件

我在 json 脚本上做了一些活动。需要在其上添加前提条件。如何在 json 脚本上使用前置条件。

在前提条件下，我需要检查 mysql db 字段。一旦标记为'Y'，开始执行否则应该停止执行。

java python json amazon-data-pipeline

2015-09-09T10:15:05.217

问题标签 [amazon-data-pipeline]

Reference