google-cloud-automl - AutoML Vision：数据集导入需要很长时间并最终失败

Question

我目前正在尝试导入包含约 7300 张图像的单标签数据集。我使用以下格式的单个 CSV 文件来创建数据集（路径缩短）：

gs://its-2018-40128940-automl-vis-vcm/[...].jpg,CAT_00
gs://its-2018-40128940-automl-vis-vcm/[...].jpg,CAT_00
gs://its-2018-40128940-automl-vis-vcm/[...].jpg,CAT_00
[...]

但是，导入过程在处理超过 7 个小时（根据以前的经验我发现异常长）后失败，并出现以下错误：

File unreadable or invalid gs://[...]

奇怪的是：文件在那里，我可以在我的机器上下载和查看它们。一旦我从 CSV 中删除了所有条目，除了两个“不可读或无效”的条目并导入了这个 CSV 文件（同一个桶），它就像一个魅力，只花了几秒钟。

另一个包含 500 张其他图像的数据集导致了同样的奇怪行为。

我之前已经导入并训练了一些 AutoML Vision 模型，但这次我不知道出了什么问题。任何想法或调试技巧表示赞赏。GCP 项目是“its-2018-40128940-automl-vis”。

提前致谢！

score 0 · Accepted Answer

当文件无法从 GCS 访问（由于文件大小或权限而无法读取）或文件格式被视为无效时，将返回文件不可读或无效。例如，图像的格式与使用的扩展名不同，或者图像服务不支持的格式。

当出现错误时，管道可能会很慢，因为目前它确实使用指数退避重试。它尝试检测不可重试的错误并快速失败 - 但如果不确定，重试时会出错。

如果您能确保图像采用正确的格式，那将是最好的 - 例如，通过将图像重新转换为一种受支持的格式。根据您的平台，有一些工具可以做到这一点。

score 0 · Accepted Answer

当我在 GCP Storage 的 UI 中通过上传检查文件时

为了匹配这个，我们必须按照以下配置上传文件，

storage.bucket(bucketName).upload(`./${csv_file}`, {
    // Support for HTTP requests made with `Accept-Encoding: gzip`
    destination: `csv/${csv_file}`,
    gzip: false,
    metadata: {

    },
});

google-cloud-automl - AutoML Vision：数据集导入需要很长时间并最终失败

2 回答 2

Related

Reference