问题标签 [amazon-data-pipeline]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2239 浏览

amazon-cloudformation - 我可以将数据管道作为我的云形成模板的一部分吗?

我的应用程序有一个S3包含每日提要的存储桶、2 个DynamoDB存储此数据的表、一个ELB将 JSON API 公开给该数据的应用程序以及一个data pipeline处理传入数据并上传到表中的流。

我的CloudFormation模板当前构建表和 ELB 应用程序。我希望管道流也成为模板的一部分(例如,一个完整的登台环境将被一起构建)。

我在手册中找不到这方面的参考资料。有谁知道该怎么做或可以确认它不受官方支持?

扎克

0 投票
1 回答
684 浏览

ruby-on-rails-4 - 是否有任何 AWS 工具可以完成与 Heroku Scheduler 相同的工作?

我已经构建了 rails 应用程序来通过运行 rake 任务从不同的资源中获取/抓取数据。但是,我通过使用 Elastic Beanstalk 将应用程序部署到 AWS,但我试图弄清楚如何在 AWS 上自动化和安排 rake 任务。任何想法什么是最好的工具来做到这一点?我在考虑数据管道,但很多人说它仅用于内部任务,例如数据库备份和日志。你有什么建议?

0 投票
1 回答
1401 浏览

amazon-web-services - AWS Datapipeline RedShiftCopyActivity - how to specify "columns"

I am trying to copy a bunch of csv files from S3 to Redshift using the RedShiftCopyActivity and a datapipeline.

This works fine as long as the csv structure matches the table structure. In my case the csv has less columns than the table and then the RedShiftCopyActivity failes with a "Delimiter not found" error in stl_load_errors.

I would like to use the redshift copy command "columns" option. That way I can make it work, but the columns part of the redshift copy command does not seem to be available in the RedShiftCopyActivity.

Anyone any suggestions?

All tips warmly welcomed.

Many thanks upfront.

Peter

0 投票
0 回答
67 浏览

amazon-data-pipeline - 一项将在之后进行但不管另一个人是否成功的活动?

假设我有活动 X,我可以将活动 Y 定义为依赖于 X(仅在 X 完成后运行)但不管 X 是成功还是失败?

我的具体用例如下:我有一个从S3to导入数据的活动DynamoDB。在此之前,我有一个ShellCommandActivity增加DynamoDB的吞吐量,然后是另一个减少它恢复正常的吞吐量。如果我的导入活动由于某种原因失败,则不会降低吞吐量。

任何其他解决方案将不胜感激!

0 投票
2 回答
2397 浏览

amazon-web-services - Incremental Load in Redshift

We are currently working on loading data into Redshift. We have different scenarios here. If the OLTP database is SQL Server residing on premise, then we can consider tool like Attunity that can help loading data to Redshift via S3. Attunity is smart in CDC, that identifies changes reading transaction log, and can apply changes to target accordingly. But this kind of tool is poor in applying transformation logic during the ETL process. Attunity is not a replacement of SSIS or ODI, but good in extracting and loading data from various sources. So for doing the transformation we need a proper ETL tool. We can load data using Attunity in a staging area inside Redshift, and from staging area we can load data to target tables using another ETL tool or using Triggers. As trigger is not supported in Redshift, so what could be that ETL tool? We have not found anything other than AWS Data Pipeline here. But using two tools: Attunity and AWS Data Pipeline might get costly. Is there any other alternative way? We don’t think Data Pipeline can connect to on premise SQL Server. It is only for Amazon ecosystem.

Now let’s consider our on premise SQL Server is now deployed in Amazon RDS. Then the situation might get different. We can still follow the same ETL process described above: using two tools Attunity and AWS Data Pipeline. But this time it should be easier to use only one tool: AWS Data Pipeline. Now is AWS Data Pipeline capable enough to handle all scenarios? We don’t find it can read transaction log. But we should be able to apply other approaches for incremental load. A very common approach is to consider last modified date column with each source table. Then we can identify the rows in RDS Sql Server tables, which are modified from the last load time. But, we cannot take the changed data from RDS to Redshift directly. We will have to use either S3 or DynamoDB. We can make AWS Data Pipeline to use S3 as the route. It again seems like a headache. Maybe there could be some other easier approach. Now again, AWS Data Pipeline is quite new in the competitive market. And a very big limitation to this tool is inability to load data from different sources outside AWS (say Salesforce, Oracle, etc). Is there any other easy to use tool that can work flawlessly inside AWS ecosystem without any difficulty and causing minimal cost?

0 投票
3 回答
6563 浏览

amazon-web-services - Amazon Data Pipeline:如何在 SqlActivity 中使用脚本参数?

尝试在 sqlActivity 中使用脚本参数时:

unload.sql 脚本包含:

或者 :

过程失败:

知道我做错了什么吗?

0 投票
2 回答
900 浏览

amazon-s3 - 使用数据管道将 >5 gig 的文件移动到 AWS S3

我们遇到了由 Java 代码生成的文件的问题,这些文件是在本地编写的,然后由数据管道复制到 S3。错误提到文件大小。

我原以为如果需要分段上传,那么管道会解决这个问题。我想知道是否有一种配置管道的方法,以便它确实使用分段上传。因为否则当前与 S3 无关的 Java 代码必须直接写入 S3,或者必须按照以前的方式执行,然后使用分段上传——事实上,我认为代码只会直接写入 S3 而不必担心上传。

谁能告诉我 Pipelines 是否可以使用分段上传,如果不能,您能否建议正确的方法是让程序直接写入 S3 还是继续写入本地存储,然后可能在同一个内部调用一个单独的程序将执行分段上传的管道?

0 投票
0 回答
186 浏览

amazon-web-services - 为从 AWS Datapipeline 中的 Kinesis 流读取的 Hive 查询提供迭代次数的变量

我正在尝试创建一个执行 Hive 查询的 AWS Datapipeline,其输出被写入 S3 存储桶。然后将数据从 AWS Redshift 集群中的 S3 存储桶中移出。

Hive 查询使用 Kinesis Stream 作为其输入。我正在尝试利用 Kinesis 的检查点功能,并希望将一个变量传递给我的 ShellCommandActivity,以便我可以在配置单元脚本中设置迭代次数。无论如何,我是否有一个每次运行数据管道时都会增加 1 的变量?

任何帮助都会很棒!

0 投票
1 回答
1843 浏览

hadoop - 具有多个输入参数的 Amazon EMR 作业

在 Amazon 数据管道中,我正在创建活动以使用 Hive 将 S3 复制到 EMR。为了实现它,我必须将两个输入参数作为一个步骤传递给 EMR 作业。我搜索了几乎所有数据管道文档,但没有找到指定多个输入参数的方法。我还与 AWS 支持团队进行了交谈,但他们也不清楚。他们建议的方式/技巧也不起作用。

下面是我的步骤参数和 Hive 查询。如果有人有实现它的想法,请告诉我。

脚步:

蜂巢查询:

0 投票
1 回答
2000 浏览

python - 尝试在 AWS Data Pipeline 上构建自动化脚本

我正在尝试通过以下方式使用 AWS Data Pipeline 服务:

  1. 选择活动类型为 Shell Command 活动,脚本 uri 设置(到 s3 存储桶),Stage 输入设置为 true。
  2. 将活动的资源类型设置为 EC2。
  3. 使用 S3 作为数据节点。
  4. 对于 ec2 资源,我选择了实例类型为 t2.medium,实例 ID 选择为我创建的自定义 AMI。
  5. 安排管道在每天晚上 10 点运行。

步骤 1 中指定的脚本(即作为活动中脚本 uri 的一部分)有 2 行: 1. 将 S3 存储桶数据复制到实例。2.运行python命令来执行我的程序。我创建的 AMI 基于 ec2 的 Ubuntu 实例,它由一些 python 软件和我想运行的代码组成。

现在,在启动管道时,我注意到确实创建了 ec2 实例,并且 S3 数据被复制并可供实例使用,但没有运行 python 命令。实例处于运行状态并且管道处于等待运行器状态一段时间,然后数据管道失败并显示消息:“资源停止”。

如果我做错了什么,或者为什么我的 python 代码没有被执行,或者为什么我得到资源停滞错误,有人可以告诉我吗?如果我在没有管道的情况下手动运行代码,则代码可以正常工作。

提前致谢!!