我正在寻找在一长串通话记录中对 user_ids 进行编码。这些记录中占用空间最多的部分是调用者和接收者的符号。我将创建一个映射,为最活跃的调用者分配较短的符号——这将有助于降低文件的整体大小(以及 I/O 时间)。
我事先知道每个符号将被使用多少次——换句话说,我知道相对概率分布。此外,生成的代码是否“无前缀”(例如霍夫曼代码)并不重要。那么最好的编码方案是什么,即能够提供最多压缩并且存在快速实现的方案?
答案不仅应指向压缩方案,还应指向该编码方案的实现。
我正在寻找在一长串通话记录中对 user_ids 进行编码。这些记录中占用空间最多的部分是调用者和接收者的符号。我将创建一个映射,为最活跃的调用者分配较短的符号——这将有助于降低文件的整体大小(以及 I/O 时间)。
我事先知道每个符号将被使用多少次——换句话说,我知道相对概率分布。此外,生成的代码是否“无前缀”(例如霍夫曼代码)并不重要。那么最好的编码方案是什么,即能够提供最多压缩并且存在快速实现的方案?
答案不仅应指向压缩方案,还应指向该编码方案的实现。