AWS 胶水爬虫有与之相关的成本,如何避免我们在 aws 胶水中的爬虫。
有什么方法可以避免使用爬虫并从任何其他选项中推断模式,从而降低成本。
AWS 胶水爬虫有与之相关的成本,如何避免我们在 aws 胶水中的爬虫。
有什么方法可以避免使用爬虫并从任何其他选项中推断模式,从而降低成本。
除了 bdcloud 所说的之外,还可以使用 CloudFormation 中的“AWS::Glue::Table”资源将表添加到数据目录中。
https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/aws-resource-glue-table.html
如果您有一个可用作模板的表模式(aws glue get-table --database-name <db name> --name <table name>
将为您提供与 CloudFormation 所期望的非常接近的 JSON),则执行此操作会更容易。
同样,您需要提前了解您的架构,但要选择最适合您正在使用的工作流程的方法。
您可以使用 Athena 在 Glue 目录中创建表,但要这样做,您需要知道文件的架构,或者您可以从运行创建的现有表中获取 DDL SHOW CREATE TABLE <table-name> in Athena
,然后您可以根据您的架构修改 DDL 语句。
DDL 查询在 Athena 中是免费的,并且不会产生任何费用。
另一种方法是发出 Glue 创建表 API 调用。请参阅此以了解 python 语法。