我想将用户的输入作为 UTF8 字符串 & 然后检测字符串的语言 & 将字符串存储为压缩的 byte[]。如果所有字符都不是同一种语言,那么它不是一个有效的输入。从用户获得有效输入后,我想将此输入字符串存储为字节数组。
如果用户输入的字符串包含非英文字符,那么每个字符将占用超过 1 个字节,所以我想存储字符串的语言,然后将每个字符存储在一个字节中(我想现在可以存储字符通过仅存储与该语言的起始代码点的差异而以单字节存储,因为所有字符都来自相同的语言,并且可能(!?)因此适合单字节容量,因为范围小!?)。这就是我压缩每个字符以适应单字节的方式。
这是一个正确的方法吗?如果是,我如何检测字符串中字符的语言?