unicode - grepping 二进制文件和 UTF16

Question

Standard grep/ pcregrepetc. 可以方便地与二进制文件一起用于 ASCII 或 UTF8 数据 - 是否有一种简单的方法可以让它们也尝试 UTF16（最好同时尝试，但会这样做）？

无论如何，我试图获取的数据都是 ASCII（库中的引用等），它只是找不到，因为有时任何两个字符之间都有 00，有时没有。

我看不出有任何方法可以在语义上完成它，但是这些 00 应该可以解决问题，除非我不能在命令行上轻松使用它们。

score 79 · Accepted Answer

最简单的方法是将文本文件转换为 utf-8 并将其通过管道传输到 grep：

iconv -f utf-16 -t utf-8 file.txt | grep query

我试图做相反的事情（将我的查询转换为 utf-16），但似乎 grep 不喜欢那样。我认为这可能与字节序有关，但我不确定。

似乎 grep 会将 utf-16 的查询转换为 utf-8/ascii。这是我尝试过的：

grep `echo -n query | iconv -f utf-8 -t utf-16 | sed 's/..//'` test.txt

如果 test.txt 是一个 utf-16 文件，这将不起作用，但如果 test.txt 是 ascii 则它确实有效。我只能得出结论，grep 正在将我的查询转换为 ascii。

编辑：这是一个非常疯狂的工作，但没有给你非常有用的信息：

hexdump -e '/1 "%02x"' test.txt | grep -P `echo -n Test | iconv -f utf-8 -t utf-16 | sed 's/..//' | hexdump -e '/1 "%02x"'`

它是如何工作的？好吧，它将您的文件转换为十六进制（没有 hexdump 通常适用的任何额外格式）。它通过管道将其输入 grep。Grep 使用的查询是通过将您的查询（不带换行符）回显到 iconv 中构建的，iconv 将其转换为 utf-16。然后将其通过管道传输到 sed 以删除 BOM（用于确定字节顺序的 utf-16 文件的前两个字节）。然后将其通过管道传输到 hexdump，以便查询和输入相同。

不幸的是，我认为如果只有一个匹配项，这最终会打印出整个文件。如果二进制文件中的 utf-16 存储在与您的机器不同的字节序中，这也将不起作用。

EDIT2：知道了！！！！

grep -P `echo -n "Test" | iconv -f utf-8 -t utf-16 | sed 's/..//' | hexdump -e '/1 "x%02x"' | sed 's/x/\\\\x/g'` test.txt

这将在文件中搜索字符串的十六进制版本Test（在 utf-16 中）test.txt

score 18 · Accepted Answer

我发现以下解决方案最适合我，来自https://www.splitbits.com/2015/11/11/tip-grep-and-unicode/

Grep 不能很好地与 Unicode 配合使用，但可以解决。例如，要查找，

Some Search Term

在 UTF-16 文件中，使用正则表达式忽略每个字符中的第一个字节，

S.o.m.e. .S.e.a.r.c.h. .T.e.r.m

另外，告诉 grep 将文件视为文本，使用“-a”，最终命令如下所示，

grep -a 'S.o.m.e. .S.e.a.r.c.h. .T.e.r.m' utf-16-file.txt

score 16 · Accepted Answer

您可以在搜索字符串中显式包含空值 (00s)，尽管您会得到带有空值的结果，因此您可能希望将输出重定向到一个文件，以便您可以使用合理的编辑器查看它，或者通过 sed 将其通过管道传输到替换空值。在 *.utf16.txt 中搜索“bar”：

grep -Pa "b\x00a\x00r" *.utf16.txt | sed 's/\x00//g'

"-P" 告诉 grep 接受 Perl 正则表达式语法，它允许 \x00 扩展为 null，而 -a 告诉它忽略 Unicode 看起来像二进制的事实。

score 8 · Accepted Answer

我在转储 Windows 注册表后一直使用这个，因为它的输出是 unicode。这是在 Cygwin 下运行的。

$ regedit /e registry.data.out
$ file registry.data.out
registry.data.out: Little-endian **UTF-16 Unicode text**, with CRLF line terminators

$ sed 's/\x00//g' registry.data.out | egrep "192\.168"
"Port"="192.168.1.5"
"IPSubnetAddress"="192.168.189.0"
"IPSubnetAddress"="192.168.102.0"
[HKEY_LOCAL_MACHINE\SYSTEM\ControlSet001\Control\Print\Monitors\Standard TCP/IP Port\Ports\192.168.1.5]
"HostName"="192.168.1.5"
"Port"="192.168.1.5"
"LocationInformation"="http://192.168.1.28:1215/"
"LocationInformation"="http://192.168.1.5:80/WebServices/Device"
"LocationInformation"="http://192.168.1.5:80/WebServices/Device"
"StandaloneDhcpAddress"="192.168.173.1"
"ScopeAddressBackup"="192.168.137.1"
"ScopeAddress"="192.168.137.1"
"DhcpIPAddress"="192.168.1.24"
"DhcpServer"="192.168.1.1"
"0.0.0.0,0.0.0.0,192.168.1.1,-1"=""
[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Print\Monitors\Standard TCP/IP Port\Ports\192.168.1.5]
"HostName"="192.168.1.5"
"Port"="192.168.1.5"
"LocationInformation"="http://192.168.1.28:1215/"
"LocationInformation"="http://192.168.1.5:80/WebServices/Device"
"LocationInformation"="http://192.168.1.5:80/WebServices/Device"
"StandaloneDhcpAddress"="192.168.173.1"
"ScopeAddressBackup"="192.168.137.1"
"ScopeAddress"="192.168.137.1"
"DhcpIPAddress"="192.168.1.24"
"DhcpServer"="192.168.1.1"
"0.0.0.0,0.0.0.0,192.168.1.1,-1"=""
"MRU0"="192.168.16.93"
[HKEY_USERS\S-1-5-21-2054485685-3446499333-1556621121-1001\Software\Microsoft\Terminal Server Client\Servers\192.168.16.93]
"A"="192.168.1.23"
"B"="192.168.1.28"
"C"="192.168.1.200:5800"
"192.168.254.190::5901/extra"=hex:02,00
"00"="192.168.254.190:5901"
"ImagePrinterPort"="192.168.1.5"

score 6 · Accepted Answer

`ripgrep`

使用ripgrep实用程序grep UTF-16 文件。

ripgrep 支持以 UTF-8 以外的文本编码搜索文件，例如 UTF-16、latin-1、GBK、EUC-JP、Shift_JIS 等。（提供了一些自动检测 UTF-16 的支持。其他文本编码必须用-E/专门指定--encoding flag.）

示例语法：

rg sometext file

要转储所有行，请运行：rg -N . file。

score 4 · Accepted Answer

我需要递归地执行此操作，这就是我想出的：

find -type f | while read l; do iconv -s -f utf-16le -t utf-8 "$l" | nl -s "$l: " | cut -c7- | grep 'somestring'; done

这绝对是可怕的而且非常缓慢；我确定有更好的方法，我希望有人可以改进它——但我很着急：P

碎片的作用：

find -type f

给出一个文件名的递归列表，其中包含相对于当前路径的文件名

while read l; do ... done

重击循环；对于文件路径列表的每一行，将路径放入$l并在循环中执行操作。（为什么我使用 shell 循环而不是 xargs，这样会快得多：我需要在输出的每一行前面加上当前文件的名称。如果我正在喂食，我想不出办法做到这一点一次将多个文件发送到 iconv，并且由于无论如何我将一次处理一个文件，因此 shell 循环更容易语法/转义。）

iconv -s -f utf-16le -t utf-8 "$l"

转换名为 in 的文件$l：假设输入文件是 utf-16 little-endian 并将其转换为 utf-8。这-s使得 iconv 关闭任何转换错误（会有很多，因为此目录结构中的某些文件不是 utf-16）。此转换的输出到标准输出。

nl -s "$l: " | cut -c7-

这是一个技巧：nl插入行号，但它恰好有一个“使用此任意字符串将数字与行分开”参数，因此我将文件名（后跟冒号和空格）放入其中。然后我cut用来去掉行号，只留下文件名前缀。（为什么我不使用sed: 转义更容易这种方式。如果我使用 sed 表达式，我不得不担心文件名中有正则表达式字符，在我的情况下有很多。nl比sed,并且将-s完全按照字面意思获取参数，shell 会为我处理转义。）

所以，在这个管道结束时，我已经将一堆文件转换为 utf-8 行，以文件名为前缀，然后我 grep。如果有匹配项，我可以从前缀中判断它们在哪个文件中。

注意事项

这比慢得多grep -R，因为我正在为每个文件生成iconv, nl,cut和的新副本。grep这太糟糕了。
不是 utf-16le 输入的所有内容都将作为完全垃圾输出，因此如果有一个包含“somestring”的普通 ASCII 文件，则此命令不会报告它——您需要执行正常grep -R以及此命令（如果您有多种 unicode 编码类型，例如一些 big-endian 和一些 little-endian 文件，则需要调整此命令并针对每种不同的编码再次运行它）。
名称恰好包含“somestring”的文件将显示在输出中，即使它们的内容没有匹配项。

score 4 · Accepted Answer

ugrep（通用 grep）完全支持 Unicode、UTF-8/16/32 输入文件，检测无效的 Unicode 以确保正确的结果，显示文本和二进制文件，并且快速且免费：

ugrep搜索 UTF-8/16/32 输入和其他格式。选项--encoding允许搜索许多其他文件格式，例如 ISO-8859-1 到 16、EBCDIC、代码页 437、850、858、1250 到 1258、MacRoman 和 KOI8。

有关详细信息，请参阅GitHub 上的 ugrep。

score 0 · Accepted Answer

sed 语句超出了我的理解范围。我有一个简单的、远非完美的 TCL 脚本，我认为它在我的测试点之一上做得很好：

#!/usr/bin/tclsh

set insearch [lindex $argv 0]

set search ""

for {set i 0} {$i<[string length $insearch]-1} {incr i} {
    set search "${search}[string range $insearch $i $i]."
}
set search "${search}[string range $insearch $i $i]"

for {set i 1} {$i<$argc} {incr i} {
    set file [lindex $argv $i]
    set status 0
    if {! [catch {exec grep -a $search $file} results options]} {
        puts "$file: $results"
    }
}

score 0 · Accepted Answer

我将此作为评论添加到上面已接受的答案中，但为了使其更易于阅读。这允许您在一堆文件中搜索文本，同时还显示它正在查找文本的文件名。所有这些文件都有一个 .reg 扩展名，因为我正在搜索导出的 Windows 注册表文件。只需将 .reg 替换为任何文件扩展名。

// Define grepreg in bash by pasting at bash command prompt
grepreg ()
{
    find -name '*.reg' -exec echo {} \; -exec iconv -f utf-16 -t utf-8 {} \; | grep "$1\|\.reg"
}

// Sample usage
grepreg SampleTextToSearch

score 0 · Accepted Answer

您可以使用以下 Ruby 的单线：

ruby -e "puts File.open('file.txt', mode:'rb:BOM|UTF-16LE').readlines.grep(Regexp.new 'PATTERN'.encode(Encoding::UTF_16LE))"

为简单起见，这可以定义为 shell 函数，如：

grep-utf16() { ruby -e "puts File.open('$2', mode:'rb:BOM|UTF-16LE').readlines.grep(Regexp.new '$1'.encode(Encoding::UTF_16LE))"; }

然后以类似 grep 的方式使用它：

grep-utf16 PATTERN file.txt

资料来源：如何将 Ruby 的 readlines.grep 用于 UTF-16 文件？

unicode - grepping 二进制文件和 UTF16

10 回答 10

ripgrep

Related

Reference

`ripgrep`