0

我在使用 hexdump 和 xxd 时有一些不一致的地方。当我运行以下命令时:

echo -n "a42d9dfe8f93515d0d5f608a576044ce4c61e61e" \
  | sed 's/\(..\)/\1\n/g' \
  | awk '/^[a-fA-F0-9]{2}$/ { printf("%c",strtonum("0x" $0)); }' \
  | xxd

它返回以下结果:

00000000: c2a4 2dc2 9dc3 bec2 8fc2 9351 5d0d 5f60  ..-........Q]._`
00000010: c28a 5760 44c3 8e4c 61c3 a61e            ..W`D..La...

注意“c2”字符。这也发生在我跑xxd -p

当我运行相同的命令时,除了 hexdump -C:

echo -n "a42d9dfe8f93515d0d5f608a576044ce4c61e61e" \
  | sed 's/\(..\)/\1\n/g' \
  | awk '/^[a-fA-F0-9]{2}$/ { printf("%c",strtonum("0x" $0)); }' \
  | hexdump -C

我得到相同的结果(就包括“c2”字符而言):

00000000  c2 a4 2d c2 9d c3 be c2  8f c2 93 51 5d 0d 5f 60  |..-........Q]._`|
00000010  c2 8a 57 60 44 c3 8e 4c  61 c3 a6 1e              |..W`D..La...|

但是,当我运行不带参数的 hexdump 时:

echo -n "a42d9dfe8f93515d0d5f608a576044ce4c61e61e" \
  | sed 's/\(..\)/\1\n/g' \
  | awk '/^[a-fA-F0-9]{2}$/ { printf("%c",strtonum("0x" $0)); }' \
  | hexdump

我得到以下 [正确] 结果:

0000000 a4c2 c22d c39d c2be c28f 5193 0d5d 605f
0000010 8ac2 6057 c344 4c8e c361 1ea6

出于此脚本的目的,我宁愿使用 xxd 而不是 hexdump。想法?

4

2 回答 2

1

为什么不将 xxd 与 -r 和 -p 一起使用?

echo a42d9dfe8f93515d0d5f608a576044ce4c61e61e | xxd -r -p | xxd

输出

0000000: a42d 9dfe 8f93 515d 0d5f 608a 5760 44ce  .-....Q]._`.W`D.
0000010: 4c61 e61e                                La..
于 2018-05-09T17:58:41.840 回答
1

您观察到的问题是由于 UTF-8 编码和 little-endiannes 造成的。

首先,请注意,当您尝试在 AWK 中打印任何 Unicode 字符时,例如0xA4 (CURRENCY SIGN),它实际上会产生两个字节的输出,就像您在输出中看到的两个字节 0xC2 0xA4 一样:

$ echo 1 | awk 'BEGIN { printf("%c", 0xA4) }' | hexdump -C

输出:

00000000  c2 a4                                             |..|
00000002

这适用于大于 0x7F 的任何字符,这是由于 UTF-8 编码,这可能是您的语言环境中设置的一个。(注意:对于上述代码,某些 AWK 实现会有不同的行为。)

其次,当您使用hexdump不带参数时,由于机器的小端序,它会以交换顺序-C显示每对字节。这是因为每对字节随后被视为单个 16 位字,而不是像和命令那样单独处理每个字节。所以你得到的输出实际上是输入的正确的逐字节表示。xxdhexdump -Cxxd

第三,如果您想生成以十六进制字符串编码的精确字节字符串,并提供给 sed,您可以使用以下 Python 解决方案:

echo -n "a42d9dfe8f93515d0d5f608a576044ce4c61e61e" | sed 's/\(..\)/0x\1,/g' | python3 -c "import sys;[open('tmp','wb').write(bytearray(eval('[' + line + ']'))) for line in sys.stdin]" && cat tmp | xxd

输出:

00000000: a42d 9dfe 8f93 515d 0d5f 608a 5760 44ce  .-....Q]._`.W`D.
00000010: 4c61 e61e                                La..
于 2018-05-04T23:29:27.470 回答