11

我有 160 位随机数据​​。

只是为了好玩,我想生成伪英语短语来“存储”这些信息。我希望能够从短语中恢复这些信息。

注意:这不是一个安全问题,我不在乎其他人是否能够恢复信息,甚至检测到它是否存在。

更好短语的标准,从最重要到最不重要:

  • 短的
  • 独特
  • 外观自然

当前的方法,在这里建议:

取三个 1024 个名词、动词和形容词的列表(选择最流行的)。通过以下模式生成一个短语,每个单词读取 20 位:

名词动词形容词动词,
名词动词形容词动词,
名词动词形容词动词,
名词动词形容词动词。

现在,这似乎是一个很好的方法,但是这个短语有点太长了,有点太沉闷了。

我在这里找到了一个词库(部分语音数据库)。

经过一些临时过滤后,我计算出这个语料库大约包含

  • 50690 个可用的形容词
  • 123585 名词
  • 15301个动词
  • 13010 副词(不包括在模式中,但在答案中提到)

这使我最多可以使用

  • 每个形容词 16 位(实际上是 16.9,但我不知道如何使用小数位)
  • 每个名词 15 位
  • 每个动词 13 位
  • 每个副词 13 位

对于名词-动词-形容词-动词模式,这在短语中为每个“句子”提供 57 位。这意味着,如果我使用从这个语料库中可以得到的所有单词,我可以生成三个句子而不是四个句子(160 / 57 ≈ 2.8)。

名词动词形容词动词,
名词动词形容词动词,
名词动词形容词动词。

还是有点太长太沉闷了。

任何提示我该如何改进它?

我看到我可以尝试:

  • 在编码之前尝试以某种方式压缩我的数据。但由于数据是完全随机的,只有一些短语会更短(而且,我猜,不会短很多)。

  • 改进短语模式,使其看起来更好。

  • 使用几种模式,使用短语中的第一个单词以某种方式指示未来解码使用了哪种模式。(例如,使用最后一个字母,甚至是单词的长度。)根据数据的第一个字节选择模式。

...我的英语不太好,无法想出更好的短语模式。有什么建议么?

  • 在模式中使用更多的语言学。不同时态等。

...我想,我需要比现在更好的单词语料库。任何提示我在哪里可以得到一个合适的?

4

1 回答 1

4

我会考虑将副词添加到您的列表中。这是我想出的一个模式:

<Adverb>, the
    <adverb> <adjective>, <adverb> <adjective> <noun> and the
    <adverb> <adjective>, <adverb> <adjective> <noun>
<verb> <adverb> over the <adverb> <adjective> <noun>.

这可以编码 181 位数据。我使用不久前从 WordNet 数据中制作的列表得出了这个数字(可能有点偏离,因为我包含了复合词):

  • 12650 个可用名词(13.6 位/名词,四舍五入)
  • 5247 个可用形容词(12.3 位/形容词)
  • 5009 个可用动词(12.2 位/动词)
  • 1512 个可用副词(10.5 位/副词)

例句: “浸泡,习惯性愚蠢,社会投机的样本和无所畏惧的灾难性,在互惠的宏观世界的某个地方,天使般地在不可避免地间歇性的被子上排挤。”

于 2011-01-15T06:20:20.193 回答