1

当我尝试使用大小> = 1MB 的输入Json 文件的Crawler 检测文件类型时,它会在粘合中创建一个表,其分类类型为“未知”。但是当大小小于 1MB 时,它成功地将文件类型分类为 JSON。

我交叉检查了文件以确保它是有效的 json 文件。

这是 aws 爬虫的限制。

如果是这样,这个问题是否有任何替代方案。

4

1 回答 1

2

是的,这是爬虫的设计,如果元数据(内部爬虫创建它)超过 1mb 你会得到上述错误,爬虫爬取 1mb 的文件大于 1mb 或整个文件如果文件大小小于大于 1Mb。如果元数据本身不适合 1Mb,那么文件将以 Unkowntype 结束。

于 2019-02-26T09:48:27.110 回答