java - 在 Java 中的 Huffman 编码期间无法压缩文件

Question

我已经使用优先级队列在 Java 中实现了 Huffman 编码算法，其中我从根到叶遍历树，并根据符号在输入中出现的次数将编码示例设为 #=000011。一切都很好，树的构建很好，编码正如预期的那样：但是我得到的输出文件比原始文件大。我目前在遍历树的左节点和右节点时将“0”和“1”附加到字符串。可能我最终使用每个字符的所有 8 位，它对压缩没有帮助。我猜这些位需要转换为字符值。这样这些字符使用的位数少于 8，因此我得到了原始文件的压缩版本。您能否告诉我如何通过在 Java 中操作字符和减少位来实现压缩？谢谢

score 0 · Accepted Answer

您可能正在使用 StringBuilder 并附加“0”或“1”，或者只是将+“0”或“1”连接到字符串末尾的运算符。或者你正在使用某种OutputStream并写入它。

您要做的是写入实际位。我建议在写之前先制作一个完整的字节。一个字节如下所示：

0x05

这将代表二进制字符串0000 0011。

byte您可以通过创建类型、添加和移动来制作这些：

public void writeToFile(String binaryString, OutputStream os){
    int pos = 0;
    while(pos < binaryString.length()){
        byte nextByte = 0x00;
        for(int i=0;i<8 && pos+i < binaryString.length(); i++){
            nextByte << 1;
            nextByte += binaryString.charAt(pos+i)=='0'?0x0:0x1;
        }
        os.write(nextByte);
        pos+=8;
    }
}

当然，一次写入一个字节是低效的，最重要的是，OutputStream 接口只接受字节数组（byte[]）。所以你最好将字节存储在一个数组中（或者更简单， a List），然后将它们写成更大的块。

如果您不允许使用字节写入（为什么不呢？ObjectOutputStream 支持写入字节数组！），那么您可以使用 Base64 对二进制字符串进行编码。但请记住，Base64 使您的数据使用量增加了 33%。

将字节数组转换为 base64 的一种简单方法是使用现有的编码器。添加以下导入后：

import sun.misc.BASE64Encoder;

您可以实例化编码器并将字节数组转换为字符串：

byte[] bytes = getBytesFromHuffmanEncoding();
BASE64Encoder encoder = new BASE64Encoder();
String encodedString = encoder.encode(bytes);

java - 在 Java 中的 Huffman 编码期间无法压缩文件

1 回答 1

Related

Reference