4

我被要求制作一个软件,该软件将根据字母频率加密和解密“普通英语”文本。

问题是我在哪里可以找到一些官方频率匹配的文本样本?

到目前为止,我尝试过列夫·托尔斯泰的《战争与和平》,效果不佳。

LE:我不仅需要一个单词列表,我还需要一个文本样本来进行一些处理。
LE2:目标是在 2000 个字符的长文本中从 26 中猜测 20。

4

3 回答 3

2

查看infochimps;他们有一堆可能有用的免费数据集。

于 2010-10-16T03:15:12.367 回答
2

您正在搜索英文文本 corpora,例如http://faculty.washington.edu/ebender/corpora/corpora.html#modern。在那列出的内容中,我知道古腾堡计划是免费的。其他许多人可能不是。

我不确定你所说的官方频率是什么意思——频率的重点是与你在野外找到的频率相匹配,如果不匹配,那就是频率表的问题。

于 2010-10-16T03:25:41.667 回答
1

试试这个英语单词列表:

http://www.openbsd.org/cgi-bin/cvsweb/src/share/dict/

于 2010-10-16T03:49:48.990 回答