1

我想通过使用单词作为符号而不是字符来压缩文本,我真的不知道这是否是一个好主意,但我只想测试它(用于科学)。

问题是,我不能真正存储英语的所有单词,所以我收集了一个非常常见的单词列表(大约 1600 个单词),我打算像拼写检查器存储派生形式的单词一样对其进行更改。(例如:kill、kill-ing、kill-er、kill-s 取决于它是动词、形容词等)

http://en.wikipedia.org/wiki/Canonical_Huffman_code

我想知道这个特殊版本的霍夫曼编码是否适合我的需要,因为“字典”不会经常更改并且可以与解压缩工具一起分发。在创建原始霍夫曼树之前,我似乎还必须指定单词的频率,然后再将其变成规范的霍夫曼树。

如果我在这里遗漏了一点,或者这是一个好主意还是坏主意,你能纠正我吗?

4

1 回答 1

0

这里要注意的一点是,这种特殊变体的优点是只有更小的码本而不是压缩数据。因此,只要您需要包含霍夫曼密码本以及您的数据,只要您替换的部分是连续的,就可以使用它。由于单词自然可以按顺序排序 - 你可以,因此你应该 - 使用 Canonical Huffman Code。

于 2012-10-19T08:07:23.067 回答