0

AWS 胶水爬虫有与之相关的成本,如何避免我们在 aws 胶水中的爬虫。

有什么方法可以避免使用爬虫并从任何其他选项中推断模式,从而降低成本。

4

2 回答 2

1

除了 bdcloud 所说的之外,还可以使用 CloudFormation 中的“AWS::Glue::Table”资源将表添加到数据目录中。

https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/aws-resource-glue-table.html

如果您有一个可用作模板的表模式(aws glue get-table --database-name <db name> --name <table name>将为您提供与 CloudFormation 所期望的非常接近的 JSON),则执行此操作会更容易。

同样,您需要提前了解您的架构,但要选择最适合您正在使用的工作流程的方法。

于 2020-02-19T06:43:37.497 回答
0

您可以使用 Athena 在 Glue 目录中创建表,但要这样做,您需要知道文件的架构,或者您可以从运行创建的现有表中获取 DDL SHOW CREATE TABLE <table-name> in Athena,然后您可以根据您的架构修改 DDL 语句。

DDL 查询在 Athena 中是免费的,并且不会产生任何费用。

另一种方法是发出 Glue 创建表 API 调用。请参阅以了解 python 语法。

于 2020-02-18T14:48:21.193 回答