statistics - jpeg 文件中的字节分布

Question

在观察压缩数据时，我期望一个几乎均匀分布的字节流。当使用卡方检验来测量分布时，我得到了这个结果，例如 ZIP 文件和其他压缩数据，但不是 JPG 文件。最近几天我一直在寻找原因，但我找不到任何原因。

在计算 JPG 的熵时，我得到了一个很高的结果（例如 7,95 位/字节）。我认为熵和分布之间一定存在联系：熵很高，当每个字节出现的概率几乎相同时。但是当使用卡方时，a 得到的 p 值约为 4,5e-5...

我只是想了解不同的分布如何影响测试结果......我以为我可以用两个测试来测量相同的属性，但显然我不能。

非常感谢您的任何提示！汤姆

score 1 · Accepted Answer

在 jpeg 文件中分发

忽略元信息和 jpeg-header-data，jpeg 的有效负载由描述哈夫曼表或编码 MCU 的块组成（最小编码单元，大小为 16x16 的方形块）。可能还有其他的，但这是最常见的。

这些块由分隔0xFF 0xSS，其中0xSS是特定的起始码。这是第一个问题：正如评论中提到的twalberg0xFF一样，它更频繁一些。

它可能发生0xFF在编码的 MCU 中。为了区分这个正常的有效载荷和新块的开始，0xFF 0x00插入。如果未填充的有效载荷的分布完全均匀，0x00则填充数据中的频率将增加一倍。更糟糕的是，每个 MCU 都充满了二进制文件以实现字节对齐（稍微偏向较大的值），我们可能需要再次填充。

可能还有其他一些我不知道的因素。如果您需要更多信息，您必须提供 jpeg 文件。

关于你的基本假设：

对于 rand_data：

 dd if=/dev/urandom of=rand_data count=4096 bs=256

对于 rand_pseudo (python)：

s = "".join(chr(i) for i in range(256))
with file("rand_pseudo", "wb") as f:
    for i in range(4096):
        f.write(s)

两者在字节值方面都应该是统一的，不是吗？;)

$ ll rand_*
-rw-r--r-- 1 apuch apuch 1048576 2012-12-04 20:11 rand_data
-rw-r--r-- 1 apuch apuch 1048967 2012-12-04 20:13 rand_data.tar.gz
-rw-r--r-- 1 apuch apuch 1048576 2012-12-04 20:14 rand_pseudo
-rw-r--r-- 1 apuch apuch    4538 2012-12-04 20:15 rand_pseudo.tar.gz

均匀分布可能表示高熵，但不能保证。此外，rand_data 可能包含 1MB 的0x00. 它极不可能，但有可能。

score 0 · Accepted Answer

这是我的java代码

         public static double getShannonEntropy_Image(BufferedImage actualImage){
         List<String> values= new ArrayList<String>();
           int n = 0;
           Map<Integer, Integer> occ = new HashMap<>();
           for(int i=0;i<actualImage.getHeight();i++){
             for(int j=0;j<actualImage.getWidth();j++){
               int pixel = actualImage.getRGB(j, i);
               int alpha = (pixel >> 24) & 0xff;
               int red = (pixel >> 16) & 0xff;
               int green = (pixel >> 8) & 0xff;
               int blue = (pixel) & 0xff;
//0.2989 * R + 0.5870 * G + 0.1140 * B greyscale conversion
//System.out.println("i="+i+" j="+j+" argb: " + alpha + ", " + red + ", " + green + ", " + blue);
                int d= (int)Math.round(0.2989 * red + 0.5870 * green + 0.1140 * blue);
               if(!values.contains(String.valueOf(d)))
                   values.add(String.valueOf(d));
               if (occ.containsKey(d)) {
                   occ.put(d, occ.get(d) + 1);
              } else {
                  occ.put(d, 1);
              }
              ++n;
       }
    }
    double e = 0.0;
    for (Map.Entry<Integer, Integer> entry : occ.entrySet()) {
         int cx = entry.getKey();
         double p = (double) entry.getValue() / n;
         e += p * log2(p);
    }
 return -e;
  }

score 0 · Accepted Answer

在这里你可以找到两个文件：第一个是随机数据，用 dev/unrandom 生成（大约 46MB），第二个是普通的 JPG 文件（大约 9MB）。很明显，JPG 文件的符号不像 dev/urandom 那样均匀分布。

如果我比较两个文件：

熵：JPG：7,969247 位/字节 RND：7,999996 位/字节

卡方检验的 P 值：JPG：0 RND：0,3621

熵怎么会导致这么高的结果？！？

随机数据（dev/urandom JPG

statistics - jpeg 文件中的字节分布

3 回答 3

在 jpeg 文件中分发

关于你的基本假设：

Related

Reference