-1

我有3个主要问题:

假设我有一个大文本文件。(1)用排名替换单词是压缩文件的有效方法吗?(得到了这个问题的答案。这是一个坏主意。)

另外,我想出了一个新的压缩算法。我阅读了一些广泛使用的现有压缩模型,发现它们使用了一些非常先进的概念,例如统计冗余和概率预测。我的算法没有使用所有这些概念,并且是一组相当简单的规则,在压缩和解压缩时需要遵循这些规则。(2)我的问题是我是否在没有足够了解现有压缩方案的情况下试图提出一种新的压缩算法而浪费时间?

(3)此外,如果我成功地压缩了一个字符串,我可以将我的算法扩展到其他内容,如视频、图像等吗?

(我知道如果没有压缩算法知识,第三个问题很难回答。但我怕算法太初级和新生,我不好意思分享它。如果有必要,请随时忽略第三个问题)

4

3 回答 3

1

你的意思是喜欢有一个按频率排序的单词排名表,并为那些重复最多的单词分配较小的“符号”,从而减少需要传输的信息量?

这基本上就是霍夫曼编码的工作原理,压缩的问题是你总是在路上的某个地方遇到一个限制,当然,如果你尝试压缩的一组东西遵循特定的模式/分布,那么它可能会非常有效它,但是出于一般目的(似乎是随机的音频/视频/文本/加密数据),没有(而且我相信不可能有)“最佳”压缩技术。

于 2012-10-17T19:41:07.303 回答
1
  1. 您的问题没有任何意义(请参阅答案#2),但我会尝试重新措辞,如果我抓住您的问题,您可以告诉我。使用单个单词的概率对文本进行建模是否会成为一个好的文本压缩算法?回答:不。那将是一个零阶模型,并且无法利用更高阶的相关性,例如给定单词在前一个单词之后的条件概率。寻找匹配字符串和不同字符概率的简单现有文本压缩器会表现得更好。

  2. 是的,如果您对现有的压缩方案没有足够的了解,您正在浪费时间尝试提出一种新的压缩算法。您应该首先了解随着时间的推移对数据、文本和其他数据建模的技术,以及使用建模信息来压缩数据的方法。在开发新方法之前,您需要研究已经研究了几十年的内容。

  3. 压缩部分可以扩展,但建模部分不会。

于 2012-10-17T22:32:47.383 回答
0

霍夫曼编码在字母上使用频率。您可以对单词或更多维度的字母频率(即字母及其频率的组合)执行相同操作。

于 2012-10-17T19:48:59.797 回答