1

我有一个问题困扰了我一段时间。

熵测试通常用于识别加密数据。当分析数据的字节均匀分布时,熵达到最大值。熵测试识别加密数据,因为该数据具有均匀分布 - 就像压缩数据一样,在使用熵测试时被归类为加密。

示例:一些 JPG 文件的熵是 7,9961532 Bits/Byte,一些 TrueCrypt 容器的熵是 7,9998857。这意味着通过熵测试,我无法检测到加密数据和压缩数据之间的差异。但是:正如您在第一张图片上看到的那样,显然 JPG 文件的字节不是均匀分布的(至少不像来自 truecrypt-container 的字节那样均匀)。

另一个测试可以是频率分析。测量每个字节的分布,例如执行卡方检验以将分布与假设分布进行比较。结果,我得到了一个 p 值。当我对 JPG 和 TrueCrypt 数据执行此测试时,结果不同。

JPG 文件的 p-Value 为 0,这意味着从统计上看分布不均匀。TrueCrypt 文件的 p 值为 0,95,这意味着分布几乎完全均匀。

我现在的问题是:有人能告诉我为什么熵测试会产生这样的误报吗?是表示信息内容的单位的比例(每字节的位数)吗?例如,p 值是否是一个更好的“单位”,因为规模更小?

非常感谢你们的任何回答/想法!

编辑:不幸的是我不能发布图片,因为我还没有获得 10 名声望 :(

4

0 回答 0