1

我目前正在通过一个 firehose 传输流发送日志记录,该传输流使用我的胶水目录中为 parquet 文件的模式定义的表将记录格式化为 parquet。让我们称之为这张桌子log_table。然后将格式化的记录存储在 S3 存储桶中。

我遇到的问题是,当我尝试抓取在 s3 存储桶中找到的数据时,它没有更新log_table,而是创建了一个名为 的新表log_table_<some random string>。如何强制爬虫更新该特定表?

这里的很多帖子都讨论了为爬虫设置与组合相关模式、使用自定义分类器、甚至设置粘合表属性相关的某些属性,UPDATED_BY_CRAWLER但这些似乎都不起作用。

目前,交付流、粘合表、粘合爬虫是通过 Cloudformation 创建的。

传送流格式转换是这样配置的。

DataFormatConversionConfiguration: Enabled: True InputFormatConfiguration: Deserializer: OpenXJsonSerDe: CaseInsensitive: True OutputFormatConfiguration: Serializer: ParquetSerDe: Compression: SNAPPY SchemaConfiguration: CatalogId: !Ref AWS::AccountId RoleARN: !GetAtt DeliveryStreamRole.Arn DatabaseName: !Ref GlueDatabase TableName: !Ref TransactionLogsTable Region: !Ref AWS::Region VersionId: LATEST

爬虫是使用默认设置(名称、角色、s3 目标等)创建的。胶合表也是如此。

我希望爬虫更新log_table我用来告诉我的交付流 parquet 文件的架构应该是什么的内容。

4

0 回答 0