我已经定义/设置了一个爬虫来读取和编目 S3 存储桶中的 avro 文件。但是爬虫/分类器无法读取字段的“doc”属性,因此它在目录中创建了一个包含字段名称和相应数据类型但没有 doc 字段值的模式。我正在探索创建自定义分类器的选项,该分类器将读取和填充字段的 doc 属性及其名称和类型。我浏览了 AWS 官方文档,但没有找到任何有关如何操作的信息/示例。谢谢。
问问题
2589 次
1 回答
0
您好,您可能想在这里查看:https ://docs.aws.amazon.com/glue/latest/dg/add-classifier.html
您可以提供自定义分类器来对 AWS Glue 中的数据进行分类。您可以使用 grok 模式、XML 标记、JavaScript 对象表示法 (JSON) 或逗号分隔值 (CSV) 创建自定义分类器。AWS Glue 爬网程序调用自定义分类器。如果分类器识别出数据,则将数据的分类和模式返回给爬虫。如果您的数据与任何内置分类器都不匹配,或者您想要自定义爬网程序创建的表,您可能需要定义自定义分类器。
于 2019-08-01T14:46:01.983 回答