1

如何从 Java 中读取以 NUL 结尾的 UTF-8ByteBuffer字符串ByteBuffer#position()

ByteBuffer b = /* 61 62 63 64 00 31 32 34 00 (hex) */;
String s0 = /* read first string */;
String s1 = /* read second string */;

// `s0` will now contain “ABCD” and `s1` will contain “124”.

我已经尝试过使用Charsets.UTF_8.decode(b),但似乎这个函数忽略了当前ByteBuffer的位置并读取直到缓冲区结束。

是否有比寻找包含 0 的字节并将缓冲区限制为它(或将带有字符串的部分复制到单独的缓冲区中)更惯用的方法来从字节缓冲区读取此类字符串?

4

3 回答 3

3

惯用的意思是“一个班轮”不是我所知道的(不足为奇,因为 NUL 终止的字符串不是 Java 规范的一部分)。

我想出的第一件事是使用b.slice().limit(x)仅在所需字节上创建轻量级视图(比将它们复制到任何地方更好,因为您可以直接使用缓冲区)

ByteBuffer b = ByteBuffer.wrap(new byte[] {0x61, 0x62, 0x63, 0x64, 0x00, 0x31, 0x32, 0x34, 0x00 });
int i;
while (b.hasRemaining()) {
  ByteBuffer nextString = b.slice(); // View on b with same start position
  for (i = 0; b.hasRemaining() && b.get() != 0x00; i++) {
    // Count to next NUL
  }
  nextString.limit(i); // view now stops before NUL
  CharBuffer s = StandardCharsets.UTF_8.decode(nextString);
  System.out.println(s);
}
于 2020-08-25T12:26:54.967 回答
1

在 java 中 char \u0000,UTF-8 字节 0,Unicode 代码点 U+0 是一个普通的字符。所以读完所有(可能是一个过大的字节数组),然后做

String s = new String(bytes, StandardCharsets.UTF_8);

String[] s0s1 = s.split("\u0000");
String s0 = s0s1[0];
String s1 = s0s1[1];

如果您没有固定位置并且必须顺序读取每个字节,则代码很难看。其中一位 C 创始人确实将 nul 终止字符串称为历史性错误。

相反,为了不为 java 字符串生成 UTF-8 字节 0,通常用于作为 C/C++ nul 终止字符串的进一步处理,存在编写修改后的 UTF-8,也对 0 字节进行编码。

于 2020-08-25T12:50:41.110 回答
0

您可以通过替换拆分功能来做到这一点。将您的十六进制字节转换为字符串并通过自定义字符查找 0。然后使用该自定义字符拆分您的字符串。

import java.nio.ByteBuffer;
import java.nio.charset.StandardCharsets;
import java.util.Arrays;

/**
 * Created by Administrator on 8/25/2020.
 */
public class Jtest {
    public static void main(String[] args) {
        //ByteBuffer b = /* 61 62 63 64 00 31 32 34 00 (hex) */;
        ByteBuffer b = ByteBuffer.allocate(10);

        b.put((byte)0x61);
        b.put((byte)0x62);
        b.put((byte)0x63);
        b.put((byte)0x64);
        b.put((byte)0x00);
        b.put((byte)0x31);
        b.put((byte)0x32);
        b.put((byte)0x34);
        b.put((byte)0x00);
        b.rewind();

        String s0;
        String s1;

        // print the ByteBuffer
        System.out.println("Original ByteBuffer:  "
                + Arrays.toString(b.array()));

        // `s0` will now contain “ABCD” and `s1` will contain “124”.
        String s = StandardCharsets.UTF_8.decode(b).toString();
        String ss = s.replace((char)0,';');
        String[] words = ss.split(";");
        for(int i=0; i < words.length; i++) {
            System.out.println(" Word " + i + " = " +words[i]);
        }

    }
}

我相信您可以通过删除替换更有效地做到这一点。

于 2020-08-25T12:35:32.770 回答