python - 在 Python 中检查图像格式是否无损？

Question

我正在开发一个要求提交给它的图像是无损的应用程序。目前我正在使用 PIL 打开图像并检查“格式”属性是否为无损格式。这需要我手动保留格式列表，并且我不知道，例如，提交的 jpeg 是否恰好应用了无损变体。

import PIL
import PIL.Image


def validate_image(path):
    img = PIL.Image.open(path)
    if not img.format.lower() in ['bmp', 'gif', 'png', ...]:
        raise Exception("File %s has invalid image format %s" % (path, img.format))

有没有更好的方法来检查图像文件是否无损？

score 3 · Accepted Answer

我想我现在明白了：你想通过 PIL 打开图像。您想要拒绝有损图像，因为您正在进行某种科学处理，需要所有丢失的数据，因为对人类视觉处理不重要的信息对您的算法很重要。

PIL 在顶层没有任何类型的接口来区分不同类型的压缩。您可以进入图像解码器并假设使用“原始”解码器的任何内容都是无损的，但即使您想这样做，也太有限了——它将排除 GIF、LZW 压缩的 TIFF 等以及JPEG、JPEG 压缩的 TIFF 等

请记住，真正的问题在于消息传递和文档——管理用户期望。检查有损图像实际上只是一种启发式方法，一种捕捉更明显错误并提醒用户需求的方法。所以，你不需要完美的东西，但拥有相当好的东西可能会有所帮助。

所以，只有几个选项，它们都不是很好：

破解 PIL 的解码器源以保留编码信息并将其传递到顶层。显然，这需要在 30 个不同的导入程序中进行一些重要的工作，可能涉及 C 和 Python，并且它会导致您必须针对（缓慢）发展的代码库维护一个补丁——尽管当然，您始终可以将其提交到上游，并希望它能够成为 PIL 的未来版本。
深入解码器本身以在运行时获取信息。您真正能找到的唯一半标准的东西是他们使用的是原始解码器还是位解码器，这根本没有用（许多无损格式都需要位解码器），所以您最终可能会阅读所有 30进口商并编写十几段代码来从中提取信息。
将另一个库与（或代替）PIL 一起使用。例如，虽然 ImageMagick 绝对不比PIL 容易得多，但它确实有一个 API 可以告诉您图像文件使用哪种压缩类型。基本上，如果它是UndefinedCompression或JPEGCompression它是有损的，其他任何东西，它都是无损的。主要的缺点（除了需要安装两个图像库）是PIL可以打开但IM不能打开的文件，反之亦然，以及PIL和IM处理不同的多图像文件，等等。
做你已经在做的事情。通读 30 个进口商，列出哪些是有损的，哪些是无损的。要处理有时无损的 JPEG 和 TIFF 等情况，您可能需要编写不会完全拒绝它们的代码，而是给出警告“这些文件可能有损。您确定要导入它们吗？ " （或者，或者，只为所有有损格式提供“我知道我在做什么”覆盖，然后只考虑 JPEG 和 TIFF 有损。）

对于许多用例，我会非常谨慎地选择#4，但对于你的用例，它实际上似乎很合理。您不是因为您的代码会崩溃，或者出于安全原因或类似原因而试图阻止有损图像；您只是想警告人们，如果他们提交 JPEG，他们将浪费大量时间获取无用的信息，对吗？

python - 在 Python 中检查图像格式是否无损？

1 回答 1

Related

Reference