nlp - 编写包含 160 位可恢复信息的合成英语短语

Question

我有 160 位随机数据。

只是为了好玩，我想生成伪英语短语来“存储”这些信息。我希望能够从短语中恢复这些信息。

注意：这不是一个安全问题，我不在乎其他人是否能够恢复信息，甚至检测到它是否存在。

更好短语的标准，从最重要到最不重要：

短的
独特
外观自然

当前的方法，在这里建议：

取三个 1024 个名词、动词和形容词的列表（选择最流行的）。通过以下模式生成一个短语，每个单词读取 20 位：

名词动词形容词动词，
名词动词形容词动词，
名词动词形容词动词，
名词动词形容词动词。

现在，这似乎是一个很好的方法，但是这个短语有点太长了，有点太沉闷了。

我在这里找到了一个词库（部分语音数据库）。

经过一些临时过滤后，我计算出这个语料库大约包含

50690 个可用的形容词
123585 名词
15301个动词
13010 副词（不包括在模式中，但在答案中提到）

这使我最多可以使用

每个形容词 16 位（实际上是 16.9，但我不知道如何使用小数位）
每个名词 15 位
每个动词 13 位
每个副词 13 位

对于名词-动词-形容词-动词模式，这在短语中为每个“句子”提供 57 位。这意味着，如果我使用从这个语料库中可以得到的所有单词，我可以生成三个句子而不是四个句子（160 / 57 ≈ 2.8）。

名词动词形容词动词，
名词动词形容词动词，
名词动词形容词动词。

还是有点太长太沉闷了。

任何提示我该如何改进它？

我看到我可以尝试：

在编码之前尝试以某种方式压缩我的数据。但由于数据是完全随机的，只有一些短语会更短（而且，我猜，不会短很多）。
改进短语模式，使其看起来更好。
使用几种模式，使用短语中的第一个单词以某种方式指示未来解码使用了哪种模式。（例如，使用最后一个字母，甚至是单词的长度。）根据数据的第一个字节选择模式。

...我的英语不太好，无法想出更好的短语模式。有什么建议么？

在模式中使用更多的语言学。不同时态等。

...我想，我需要比现在更好的单词语料库。任何提示我在哪里可以得到一个合适的？

score 4 · Accepted Answer

我会考虑将副词添加到您的列表中。这是我想出的一个模式：

<Adverb>, the
    <adverb> <adjective>, <adverb> <adjective> <noun> and the
    <adverb> <adjective>, <adverb> <adjective> <noun>
<verb> <adverb> over the <adverb> <adjective> <noun>.

这可以编码 181 位数据。我使用不久前从 WordNet 数据中制作的列表得出了这个数字（可能有点偏离，因为我包含了复合词）：

12650 个可用名词（13.6 位/名词，四舍五入）
5247 个可用形容词（12.3 位/形容词）
5009 个可用动词（12.2 位/动词）
1512 个可用副词（10.5 位/副词）

例句： “浸泡，习惯性愚蠢，社会投机的样本和无所畏惧的灾难性，在互惠的宏观世界的某个地方，天使般地在不可避免地间歇性的被子上排挤。”

nlp - 编写包含 160 位可恢复信息的合成英语短语

1 回答 1

Related

Reference