aws-glue - 如果大小 >1MB，AWS 爬虫无法对 S3 中的文件类型存储进行分类

Question

当我尝试使用大小> = 1MB 的输入Json 文件的Crawler 检测文件类型时，它会在粘合中创建一个表，其分类类型为“未知”。但是当大小小于 1MB 时，它成功地将文件类型分类为 JSON。

我交叉检查了文件以确保它是有效的 json 文件。

这是 aws 爬虫的限制。

如果是这样，这个问题是否有任何替代方案。

score 2 · Accepted Answer

是的，这是爬虫的设计，如果元数据（内部爬虫创建它）超过 1mb 你会得到上述错误，爬虫爬取 1mb 的文件大于 1mb 或整个文件如果文件大小小于大于 1Mb。如果元数据本身不适合 1Mb，那么文件将以 Unkowntype 结束。

1 回答 1