1

我目前正在尝试导入包含约 7300 张图像的单标签数据集。我使用以下格式的单个 CSV 文件来创建数据集(路径缩短):

gs://its-2018-40128940-automl-vis-vcm/[...].jpg,CAT_00
gs://its-2018-40128940-automl-vis-vcm/[...].jpg,CAT_00
gs://its-2018-40128940-automl-vis-vcm/[...].jpg,CAT_00
[...]

但是,导入过程在处理超过 7 个小时(根据以前的经验我发现异常长)后失败,并出现以下错误:

File unreadable or invalid gs://[...]

奇怪的是:文件在那里,我可以在我的机器上下载和查看它们。一旦我从 CSV 中删除了所有条目,除了两个“不可读或无效”的条目并导入了这个 CSV 文件(同一个桶),它就像一个魅力,只花了几秒钟。

另一个包含 500 张其他图像的数据集导致了同样的奇怪行为。

我之前已经导入并训练了一些 AutoML Vision 模型,但这次我不知道出了什么问题。任何想法或调试技巧表示赞赏。GCP 项目是“its-2018-40128940-automl-vis”。

提前致谢!

4

2 回答 2

0

当文件无法从 GCS 访问(由于文件大小或权限而无法读取)或文件格式被视为无效时,将返回文件不可读或无效。例如,图像的格式与使用的扩展名不同,或者图像服务不支持的格式。

当出现错误时,管道可能会很慢,因为目前它确实使用指数退避重试。它尝试检测不可重试的错误并快速失败 - 但如果不确定,重试时会出错。

如果您能确保图像采用正确的格式,那将是最好的 - 例如,通过将图像重新转换为一种受支持的格式。根据您的平台,有一些工具可以做到这一点。

于 2018-09-04T21:07:16.640 回答
0

当我在 GCP Storage 的 UI 中通过上传检查文件时

在此处输入图像描述

为了匹配这个,我们必须按照以下配置上传文件,

storage.bucket(bucketName).upload(`./${csv_file}`, {
    // Support for HTTP requests made with `Accept-Encoding: gzip`
    destination: `csv/${csv_file}`,
    gzip: false,
    metadata: {

    },
});
于 2019-01-30T09:57:27.810 回答