3

我有一个 Javascript 小书签,用于encodeURIcomponent将当前页面的 URL 传递到服务器端,然后urldecode在服务器端使用来取回字符。

问题是,当编码字符不在 utf-8 中时(对于我来说它是 gb2312,但它可能是别的东西),并且当服务器执行 时urldecode,解码的字符变成正方形。显然,这不是编码之前的样子。

它是一个书签,输入可以是任何东西,所以我不能只在 js 中定义“编码为 gb2312”,或者在 php 脚本中定义“解码为 gb2312”。

那么,有没有正确的使用方法encodeURIcomponent,将字符编码与内容一起传递,然后解码可以选择正确的编码对其进行解码?

4

2 回答 2

0

使用escape()然后将字符转换为数字字符引用,然后再将它们发送到服务器。

来自MDN escape() 参考

字符的十六进制形式,其代码单元值为 0xFF 或更小,是两位转义序列:%xx。对于具有更大代码单元的字符,使用四位数格式 %uxxxx。

因此,很容易通过使用一个简单的语句将输出转换escape()为数字字符引用:replace()

escape(input_value).replace(/%u([0-9a-fA-F]{4})/g, '&#x$1;');

或者,如果您的服务器端语言仅支持十进制实体,请使用:

escape(input_value).replace(/%u([0-9a-fA-F]{4})/g, function(m0, m1) {
                return '&#' + parseInt(m1, 16) + ';';
};

PHP 中的示例代码

client.html (文件编码:GB2312)

<html>
  <head>
    <meta charset="gb2312">
    <script>
    function processForm(form) {
        console.log('BEFORE:', form.test.value);
        form.test.value = escape(form.test.value).replace(/%u(\w{4})/g, function(m0, m1) {
            return '&#' + parseInt(m1, 16) + ';';
        });
        console.log('AFTER:', form.test.value);
        return true;
    }
    </script>
  </head>
  <body>
    <form method="post" action="server.php" onsubmit="return processForm(this);">
      <input type="text" name="test" value="确定">
      <input type="submit">
    </form>
  </body>
</html>

server.php

<?php
echo '<script>console.log("', 
     $_REQUEST['test'], ' --> ', 
     mb_decode_numericentity($_REQUEST['test'], array(0x80, 0xffff, 0, 0xffff), 'UTF-8'),
     '");</script>';
?>
于 2014-11-18T02:49:38.990 回答
0

对于浏览器的编码,尤其是GB2312字符集,请先查看以下文档(中文)

对于您的情况,%C8%B7%B6%A8实际上是从 GB2312 形式生成的'\u786e\u5b9a'. 这通常发生在(旧版?)IE 和 FF 版本上,当用户直接在位置栏中输入汉字时,
或者您正在使用来自页面内容的非标准链接,该链接根本不执行 IRI 到 URI 编码,而只是呈现二进制字符串,例如'/tag/\xc8\xb7\xb6\xa8'(douban.com 曾经对标签有这种用法,现在他们在 UTF8 中使用正确的 URI 编码)。不太确定,因为无法在 Chrome 中重现,可能在 FF 和 IE 中测试,关于豆瓣的部分是正确的。

实际上,正确的输出encodeURIComponent应该是

> encodeURIComponent('%C8%B7%B6%A8')
  "%25C8%25B7%25B6%25A8"

因此,在服务器端,当一个未加引号的字符串包含非 ascii 字节时,您最好将字符串保持原样,here '%C8%B7%B6%A8'

此外,您可以签入客户端以encodeURIComponent再次应用包含%XXXX 大于的值0x7F。我不太确定这是否违反 RFC 2396。

写英文好累啊,不过还是要入乡随俗~

于 2012-04-30T10:24:28.713 回答