问题标签 [aws-glue]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何在 aws 胶水中重新分区到新列?
假设数据源(csv)包含 2 列:code:string
和my_date:date
. 我尝试添加额外的列 -my_date_string:string
并将其写入兽人格式,并在该列上使用分区:
我得到了例外:
似乎根本没有添加新列!!!:(
但是,当我删除重新分区语句时,它会写入所有列(例如所有新旧列)。如何解决这个问题?如何在重新分区之前执行列“添加”?
json - 我可以使用 AWS Glue 将 S3 上的 json 数据转换为列格式并将其推送到 Redshift 吗?
我在 S3 上有嵌套 JSON 格式的数据,它不断更新。我希望数据在转换后定期将这些数据推送到 Redshift 集群。AWS Glue 是否有助于配置将格式转换为柱状并将其推送到 Redshift 的定期运行?
amazon-web-services - 我们可以将 AWS Glue 视为 EMR 的替代品吗?
只需向 Masters 澄清一个简单的问题,因为 AWS Glue 作为 ETL 工具,除了在 spark 上运行之外,还可以为公司提供诸如最少或无需服务器维护、通过避免过度供应或供应不足资源来节省成本等好处,我如果 AWS Glue 可以替代 EMR,我正在寻找一些说明?
如果两者可以共存,那么 EMR 如何与 AWS Glue 一起发挥作用?
感谢和问候
尤瓦
aws-glue - AWS Glue - 空闲时间的开发终端节点价格
AWS Glue - 开发人员终端节点的空闲时间是否有任何定价费用?假设我配置了一个开发人员端点,并且每天运行一个作业 30 分钟。定价是否仅针对每天 30 分钟的持续时间或包括 AWS Glue - 开发人员终端节点的空闲时间。
谢谢
尤瓦
amazon-web-services - AWS Glue 在运行作业时返回错误
我想从存储在 aws redshift 上的数据生成 parquet 文件格式,为此我创建了连接和爬虫以获取数据信息。所有数据库目录均已成功获取,但在运行作业以获取表数据、生成 parquet 文件并将其存储到 aws s3 时,AWS Glue 给了我以下错误:
ip "someIp address" 的反向 dns 解析失败
但是,我可以成功地生成源数据存储和目标数据存储为 AWS S3 的镶木地板文件。仅当我将 redshift 集群用作源数据存储并使用 S3 作为目标数据存储时才会生成错误。
我知道该错误与向我显示错误的 Route53 服务无关。我还检查了我的安全组。它还允许 VPC 中的所有入口流量。我还检查了 S3 存储桶和 Redshift 是否在同一区域。子网也是正确的。
amazon-s3 - 在 Glue JOB 中命名 Parquet 文件
如何为 AWS 粘合作业中的镶木地板文件分配预定义名称?
例如,在我的作业运行后,parquet 文件将存储在特定文件夹中,其名称如下:
零件-00000-fc95461f-00da-437a-9396-93c7ea473720.snappy.parquet,零件-00000-tc95431f-00ds-437b-9396-93c7ea473720.snappy.parquet
我希望文件以预定义或结构化格式存储,例如:
part-00000-12Jan2018.snappy.parquet,part-00000-13Jan2018.snappy.parquet
等等
amazon-web-services - 在使用 AWS Glue 时是否有可以访问的临时文件夹?
在 AWS 胶水中运行进程时,是否有一个临时文件夹可以访问以临时保存文件?例如,在 Lambda 中,只要进程正在执行,我们就可以访问 /tmp 目录。我们在 AWS Glue 中是否有类似的东西可以在作业执行时存储文件?
python - 如何在 AWS Glue 中将 JSON 关联到平面结构
尝试展平具有两个地图/字典字段(custom_event1 和 custom_event2)的输入 JSON 数据,其中可能包含任何键值对数据。为了从数据框创建输出表,必须避免 custom_events 的扁平化并将其作为 JSON 字符串存储在列中。
在此文档之后,Relationalize.apply 也在展平 custom_events 地图。
如何在关系存储中存储带有动态映射字段的 JSON 数据?
amazon-web-services - job.commit 在 aws glue 中执行哪些操作?
每个作业脚本代码都应该结束,job.commit()
但是这个函数的具体操作是什么?
- 它只是工作结束标记吗?
- 它可以在一份工作中被调用两次(如果是 - 在什么情况下)?
- 调用后执行任何python语句是否安全
job.commit()
?
PS我没有在PyGlue.zip
aws py源代码中找到任何描述:(
amazon-redshift - 如何以编程方式读取 AWS Glue 数据目录表架构
我有一组统一结构的每日 CSV 文件,我将上传到 S3。有一个下游作业将 CSV 数据加载到 Redshift 数据库表中。CSV 中的列数可能会增加,从那时起,新文件中将包含新列。发生这种情况时,我想检测更改并将列自动添加到目标 Redshift 表中。
我的计划是在源 CSV 文件上运行 Glue Crawler。架构中的任何更改都会在 Glue 数据目录中生成新版本的表。然后,我想使用 Java、.NET 或其他语言以编程方式读取 Glue 数据目录中最新版本表的表结构(列及其数据类型),并将其与 Redshift 表的架构进行比较。如果找到新列,我将生成一个 DDL 语句来更改 Redshift 表以添加列。
有人可以指出使用 Java、.NET 或其他语言读取 Glue 数据目录表的任何示例吗?有没有更好的想法来自动向 Redshift 表添加新列?