amazon-web-services - 如何使用自定义分类器使 AWS Glue 爬网程序跳过日志文件的第一行？

问问题 2019-10-04T13:38:18.173

289 次

我是胶水新手，我正在尝试让爬虫功能从一些日志文件中提取数据库表。问题是文件有不同的第一行。我已经定义了一个自定义 Grok 分类器，只要我删除第一行就可以正常工作，但是当我使用原始日志文件时，它会停止工作并使用默认的胶水分类器（这显然对我不起作用）。我尝试将 'skip.header.line.count'=1 添加到表属性（并将爬虫设置为不更新架构），但这也不起作用。有没有办法在 grok 模式中写“跳过第一行”？

amazon-web-services - 如何使用自定义分类器使 AWS Glue 爬网程序跳过日志文件的第一行？

0 回答 0

Related

Reference