validation - 从图像的二进制数据中提取特征的工具

Question

我正在从事一个项目，其中我的图像文件格式错误（模糊，即它们的图像数据已被更改）。这些文件在各种平台上呈现时会导致来自平台的警告/崩溃/通过报告。

我正在尝试使用无监督机器学习构建一个防护罩，这将帮助我将这些图像识别/分类为恶意或非恶意图像。我有这些文件的二进制数据，但我不知道我可以从中识别出哪些特征集/模式，因为从视觉上看，这些图像可能是任何东西。（我需要能够从二进制数据中找到特征集）

我需要一些关于我可以用来从这个二进制数据中自动提取特征的工具/方法的建议；我可以将其与无监督学习算法（例如 Kohenen 的 SOM 等）一起使用的功能集。

我是新手，任何帮助都会很棒！

score 2 · Accepted Answer

我不认为这是可行的。

问题是这些都是旧的漏洞利用，对它们的训练不会告诉你太多关于未来的漏洞利用。因为这是一个极其不平衡的问题：没有漏洞利用与另一个漏洞使用相同的东西。因此，即使您生成多个相同类型的文件，您最终也可能会获得一个相关的单个训练案例，例如针对每个漏洞利用。

尽管如此，您需要做的是从文件元数据中提取特征。这就是漏洞所在，而不是实际图像。因此，解析文件已经成为问题所在，您的检测工具可能会受到此类漏洞的攻击。

由于数据可能被压缩，一个简单的二进制特征也不会起作用。

score 0 · Accepted Answer

您可能根本不想查看实际的像素数据，因为大多数（几乎可以肯定）损坏位于文件头中，它具有不同的“块”（例如 png，其工作方式不同，但其他格式的工作方式相同）：

http://en.wikipedia.org/wiki/Portable_Network_Graphics#File_header

选择特征应该是直截了当的，制作一个从文件中读取所有标题信息的程序，如果信息丢失，并将这些信息用作特征。仍然会比不必要的原始图像数据小得多。

哦，总是从更简单的算法开始，比如 pca 和 kmeans 什么的，如果它们失败了，你应该拿出大炮。

2 回答 2