我想通过使用单词作为符号而不是字符来压缩文本,我真的不知道这是否是一个好主意,但我只想测试它(用于科学)。
问题是,我不能真正存储英语的所有单词,所以我收集了一个非常常见的单词列表(大约 1600 个单词),我打算像拼写检查器存储派生形式的单词一样对其进行更改。(例如:kill、kill-ing、kill-er、kill-s 取决于它是动词、形容词等)
http://en.wikipedia.org/wiki/Canonical_Huffman_code
我想知道这个特殊版本的霍夫曼编码是否适合我的需要,因为“字典”不会经常更改并且可以与解压缩工具一起分发。在创建原始霍夫曼树之前,我似乎还必须指定单词的频率,然后再将其变成规范的霍夫曼树。
如果我在这里遗漏了一点,或者这是一个好主意还是坏主意,你能纠正我吗?