问题标签 [aws-data-pipeline]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - 是否可以使用胶水在 AWS Glue 数据库中更新和插入数据
所以我正在使用 AWS pyspark,并且每天都有千兆字节的数据,这些数据正在更新。我想在胶水数据库中的现有表中查找数据的 id,如果 id 已经存在则更新,如果 id 不存在则插入。
是否可以在 AWS 胶水中做到这一点?
谢谢!
amazon-web-services - 通过 AWS Redshift 加载的记录数
有没有办法通过 AWS 控制台了解使用 AWS 数据管道加载到红移表中的记录数?
python - 在 pandas 的下游作业中通过 Athena 读取分区数据
我的数据管道中有 2 个阶段,第一阶段从源读取数据并转储到中间存储桶,下一个阶段从该中间存储桶读取数据。我在中间阶段设置了 athena,我们计划从 athena 读取此分区数据而不是读取文件(使用 Athena 的原因:我们可能会遇到需要根据某些条件在一次读取中从不同分区读取的情况) .
我们是否应该继续采用这种方法,因为我们知道 Athena 在将数据读取到 pandas 数据帧时有一些限制,比如我们一次只能有 1000 条记录。
这个用例有没有更好的解决方案。我们正在使用熊猫。
amazon-web-services - Glue 管道中的多个 S3 输入
我在 3 个独立的 S3 存储桶中有 3 个独立的数据源(文件)。这 3 个来源中的模式彼此不同,但时间戳是相同的(以纪元为单位的每小时)。
以前,我使用 Glue 从 1 个存储桶中读取数据,并将转换应用于该存储桶中的文件,然后写入生成的存储桶。
使用 3 个数据源,我是否仍然可以从 3 个不同的存储桶中读取它们并以某种方式在纪元时间戳上加入它们,然后吐出统一的数据源(所有 3 个的组合).. 我猜 Glue 将不得不在此执行行级 JOINS案子。
到目前为止,我在网上找到的关于 Glue 的博客文章只讨论了单源输入和转换。
如果这不可能我问的方式?否则你会怎么做?
amazon-web-services - 为什么 AWS 数据管道需要这么长时间才能创建日志?
我在 AWS 上部署了一个 ETL 数据管道。实现是在 Python 中。通过使用日志记录模块,我记录了每个功能的开始和完成。
该过程比管道执行结束时间提前大约一个小时完成。即,假设管道执行结束时间是16:00,但最后一次函数执行的日志时间是15:00。
AWS 数据管道是否需要很长时间才能创建日志?如果是这样,为什么需要这么长时间?如果不是,为什么会有大约一个小时的延迟?
oracle - 如何使用 AWS 数据管道将数据从 AWS ORACLE RDS 导出到本地 Oracle DB?
我想使用 AWS Data Pipeline 将数据从 AWS ORACLE RDS 导出到本地 Oracle DB。有人可以告诉我如何实现吗?
提前致谢
amazon-web-services - 无法在 AWS 数据管道中使用的 AWS EC2 机器上下载 pip 和 boto3
我正在使用调用 Python 脚本的 Shell 命令活动。这个 Python 脚本利用 boto3 来执行一些功能。在 Shell Command Activity 的 shell 脚本中,我试图在调用我的 Python 脚本之前将 boto3 安装到机器上。我也在安装pip。
尽管安装了 boto3,但在激活数据管道时它正在执行我的 Python 脚本时,我一直收到错误“ImportError: No module named boto3”这是我的 shell 脚本的样子:
我也尝试了这里提到的建议,它也因同样的错误而失败:https ://stackoverflow.com/a/44225052/4549186
(所有数据管道活动都在管道激活期间创建的已配置 Ec2 资源上运行)
在 ec2 资源上安装 pip/boto3 并在 Python 代码中引用它的正确方法是什么?
amazon-web-services - 在 s3 存储桶中导入带有分号分隔字段的 csv 文件
我正在使用AWS Data Pipelines将 SQL 数据复制到 AWS S3 中的 CSV 文件。一些数据在字符串引号之间有逗号,例如:
{"id":123455,"user":"some,user" .... }
在将此 CSV 数据导入 DynamoDB 时,它将逗号作为字段值的结尾。这样会导致错误,因为映射中给出的数据与我们提供的模式不匹配。
我的解决方案是 - 在将数据从 SQL 复制到 S3 存储桶时 - 用;
(分号)分隔我们的 CSV 字段。这样,引号内的值将被视为一个。数据看起来像(注意逗号后引号字符串中的空格):
{“身份证”:12345;“用户”:“一些,用户”;....}
我的堆栈如下所示:
有什么方法可以使用分隔符来分隔带有;
(分号)的字段?
谢谢!
amazon-web-services - 使用数据管道的 AWS dynamodb 导出不适用于 eu-north-1?
我已经基于将 dynamodb 表导出到 S3 的模板准备了数据管道(在 eu-west-1 区域)。我的表位于 eu-north-1 区域,但是将其放在参数 myDDBRegion 下时,出现以下错误:
这是一个不支持从中导出数据的区域吗?如果是这样,我如何完成从该表中导出数据?