我有 160 位随机数据。
只是为了好玩,我想生成伪英语短语来“存储”这些信息。我希望能够从短语中恢复这些信息。
注意:这不是一个安全问题,我不在乎其他人是否能够恢复信息,甚至检测到它是否存在。
更好短语的标准,从最重要到最不重要:
- 短的
- 独特
- 外观自然
当前的方法,在这里建议:
取三个 1024 个名词、动词和形容词的列表(选择最流行的)。通过以下模式生成一个短语,每个单词读取 20 位:
名词动词形容词动词, 名词动词形容词动词, 名词动词形容词动词, 名词动词形容词动词。
现在,这似乎是一个很好的方法,但是这个短语有点太长了,有点太沉闷了。
我在这里找到了一个词库(部分语音数据库)。
经过一些临时过滤后,我计算出这个语料库大约包含
- 50690 个可用的形容词
- 123585 名词
- 15301个动词
- 13010 副词(不包括在模式中,但在答案中提到)
这使我最多可以使用
- 每个形容词 16 位(实际上是 16.9,但我不知道如何使用小数位)
- 每个名词 15 位
- 每个动词 13 位
- 每个副词 13 位
对于名词-动词-形容词-动词模式,这在短语中为每个“句子”提供 57 位。这意味着,如果我使用从这个语料库中可以得到的所有单词,我可以生成三个句子而不是四个句子(160 / 57 ≈ 2.8)。
名词动词形容词动词, 名词动词形容词动词, 名词动词形容词动词。
还是有点太长太沉闷了。
任何提示我该如何改进它?
我看到我可以尝试:
在编码之前尝试以某种方式压缩我的数据。但由于数据是完全随机的,只有一些短语会更短(而且,我猜,不会短很多)。
改进短语模式,使其看起来更好。
使用几种模式,使用短语中的第一个单词以某种方式指示未来解码使用了哪种模式。(例如,使用最后一个字母,甚至是单词的长度。)根据数据的第一个字节选择模式。
...我的英语不太好,无法想出更好的短语模式。有什么建议么?
- 在模式中使用更多的语言学。不同时态等。
...我想,我需要比现在更好的单词语料库。任何提示我在哪里可以得到一个合适的?