为了更好地演示和理解字符串转义行为,请看以下示例:
您可以通过拆分字符串来查看字符串在被 JS 引擎解析后在内存中的样子,因此也提供了围绕此问题的潜在(丑陋)解决方案:
'file:///C:\funstuff\buildtools\viewer.html'.split('')
//>
["f", "i", "l", "e", ":", "/", "/", "/", "C", ":", "", "u", "n", "s", "t", "u",
"f", "f", "", "u", "i", "l", "d", "t", "o", "o", "l", "s", "", "i", "e", "w",
"e", "r", ".", "h", "t", "m", "l"]
'file:///C:\funstuff\buildtools\viewer.html'.split('').map( function(e){
return e.charCodeAt()
});
//>
[102, 105, 108, 101, 58, 47, 47, 47, 67, 58, 12, 117, 110, 115, 116, 117, 102,
102, 8, 117, 105, 108, 100, 116, 111, 111, 108, 115, 11, 105, 101, 119, 101,
114, 46, 104, 116, 109, 108]
//>in Hex values by applying .toString(16)
["66", "69", "6c", "65", "3a", "2f", "2f", "2f", "43", "3a", "c", "75", "6e",
"73", "74", "75", "66", "66", "8", "75", "69", "6c", "64", "74", "6f", "6f",
"6c", "73", "b", "69", "65", "77", "65", "72", "2e", "68", "74", "6d", "6c"]
基本上,如果不注意转义上下文,则单个反斜杠会转义以下字符,从而产生意想不到的结果。
解决方案:
通过查找表,您可以恢复许多错误转义的字符,如果它们位于\x20-\x7F
. 例如,对于上面的示例,12
或\x0c
[ 12..toString(16)
] 将变为'\\'+'v'
,依此类推。
PS:请注意发生了信息丢失,并且您正在尝试通过上下文或元信息来恢复信息,这意味着在您的情况下该字符串在可打印的 ASCII 范围内。
请与社区分享任何实现。干杯!