我正在从事一项 ETL 工作,该工作将把 JSON 文件摄取到 RDS 暂存表中。我配置的爬虫可以对小于 1MB 的 JSON 文件进行分类。如果我缩小文件(而不是漂亮的打印),如果结果小于 1MB,它将毫无问题地对文件进行分类。
我很难想出一个解决方法。我尝试将 JSON 转换为 BSON 或 GZIPing JSON 文件,但它仍然被归类为 UNKNOWN。
有没有其他人遇到过这个问题?有一个更好的方法吗?
我正在从事一项 ETL 工作,该工作将把 JSON 文件摄取到 RDS 暂存表中。我配置的爬虫可以对小于 1MB 的 JSON 文件进行分类。如果我缩小文件(而不是漂亮的打印),如果结果小于 1MB,它将毫无问题地对文件进行分类。
我很难想出一个解决方法。我尝试将 JSON 转换为 BSON 或 GZIPing JSON 文件,但它仍然被归类为 UNKNOWN。
有没有其他人遇到过这个问题?有一个更好的方法吗?
我有两个 42mb 和 16mb 的 json 文件,在 S3 上分区为路径:
s3://bucket/stg/年/月/_0.json
s3://bucket/stg/年/月/_1.json
我和你有同样的问题,爬虫分类为 UNKNOWN。
我能够解决它:
如中所述
https://docs.aws.amazon.com/glue/latest/dg/custom-classifier.html#custom-classifier-json
当您使用内置 JSON 分类器运行爬网程序时,整个文件用于定义架构。因为没有指定 JSON 路径,爬虫将数据视为一个对象,即只是一个数组。
这也是Dung在他的回答中指出的。
另请注意,文件编码可能导致 JSON 被归类为 UNKNOWN。请尝试将文件重新编码为 UTF-8。