15

我正在寻找有关应用程序引擎如何处理字符编码的一些解释。我正在开发服务器位于应用引擎上的客户端-服务器应用程序。

这是一个从头开始构建的新应用程序,因此我们到处都使用 UTF-8。客户端通过 POST,x-www-form-urlencoded 向服务器发送一些字符串。我收到它们并回显它们。当客户取回它时,它是 ISO-8859-1!我在 POST 到 blobstore 时也看到了这种行为,参数以 UTF-8 形式发送,multipart/form-data 编码。

作为记录,我在 Wireshark 中看到了这一点。所以我 100% 确定我发送 UTF-8 并接收 ISO-8859-1。另外,我没有看到 mojibake:ISO-8859-1 编码的字符串非常好。这也不是误解 Content-Type 的问题。这不是客户端。一路走来正确识别我正在发送 UTF-8 参数,但由于某种原因将它们转换为 ISO-8859-1。

我被引导相信 ISO-8859-1 是 GAE servlet 的默认字符编码。我的问题是,有没有办法告诉 GAE 不要转换为 ISO-8859-1,而是到处使用 UTF-8?

假设 servlet 做了这样的事情:

public void doPost(HttpServletRequest req, HttpServletResponse resp) throws IOException {
    resp.setContentType("application/json");
    String name = req.getParameter("name");
    String json = "{\"name\":\"" + name + "\"}";
    resp.getOutputStream().print(json);
}

我尝试将响应和请求的字符编码设置为“UTF-8”,但这并没有改变任何东西。

提前致谢,

4

4 回答 4

17

我看到你应该做两件事。

1)在您的 appengine-web.xml 中将系统属性(如果您正在使用它)设置为 utf8

<system-properties>
    <property name="java.util.logging.config.file" value="WEB-INF/logging.properties" />
    <property name="file.encoding" value="UTF-8" />
    <property name="DEFAULT_ENCODING" value="UTF-8" />
</system-properties>

好的,以上是我所拥有的,但文档建议如下:

<env-variables>
    <env-var name="DEFAULT_ENCODING" value="UTF-8" />
</env-variables>

https://developers.google.com/appengine/docs/java/config/appconfig

2) 在设置内容类型时指定编码,否则将恢复为默认值

内容类型可以包括所使用的字符编码类型,例如text/html;字符集=ISO-8859-4。

我会尝试

resp.setContentType("application/json; charset=UTF-8");

您还可以尝试使用可以直接将内容类型设置为它的编写器。

http://docs.oracle.com/javaee/1.3/api/javax/servlet/ServletResponse.html#getWriter%28%29
http://docs.oracle.com/javaee/1.3/api/javax/servlet/ServletResponse .html#setContentType(java.lang.String)

对于它的价值,我需要 utf8 用于日语内容,我没有任何问题。无论如何,我没有使用过滤器或 setContentType。我正在使用上面的 gwt 和 #1 并且它有效。

于 2012-08-10T21:58:58.023 回答
7

找到了解决它的方法。我是这样做的:

  • 使用 "application/json; charset=UTF-8" 作为内容类型。或者,将响应字符集设置为“UTF-8”(两者都可以正常工作,无需同时执行)。

  • Base64 编码的输入字符串不是 ASCII 安全的,并且是 UTF-8。否则,当它们到达 servlet 时,它们显然会转换为 ISO-8859-1。

  • 使用 resp.getWriter() 而不是 resp.getOutputStream() 来打印 JSON 响应。

在满足所有这些条件后,我终于能够将 UTF-8 输出回客户端。

于 2012-08-21T14:30:35.710 回答
1

这不是 GAE 特有的,但如果您觉得它有用:我制作了自己的过滤器:

在 web.xml 中

<filter>
    <filter-name>charsetencoding</filter-name>
    <filter-class>mypackage.CharsetEncodingFilter</filter-class>
</filter>
    ...
<filter-mapping>
   <filter-name>charsetencoding</filter-name>
   <url-pattern>/*</url-pattern> 
</filter-mapping>

(将过滤器映射片段完全放在过滤器映射的开头,并检查您的 url-pattern。

public class CharsetEncodingFilter implements Filter {

    public void doFilter(ServletRequest request, ServletResponse response, FilterChain chain) throws IOException, ServletException {
        HttpServletRequest req = (HttpServletRequest) request;
        HttpServletResponse res = (HttpServletResponse) response;
        req.setCharacterEncoding("UTF-8");
        chain.doFilter(req, res);
        res.setCharacterEncoding("UTF-8");
    }

    public void destroy() { }

    public void init(FilterConfig filterConfig) throws ServletException { }
}
于 2012-08-10T19:42:00.140 回答
0

解决方法(安全)

这些答案都没有对我有用,所以我编写了这个类来将UTF-Strings 编码为 ASCII-Strings(用它们的表号替换所有不在 ASCII 表中的字符,前面和后面都有一个标记),使用AsciiEncoder.encode(yourString)

然后可以使用 将字符串解码回 UTFAsciiEncoder.decode(yourAsciiEncodedString)

package <your_package>;

import java.util.ArrayList;

/**
 * Created by Micha F. aka Peracutor.
 * 04.06.2017
 */

public class AsciiEncoder {

    public static final char MARK = '%'; //use whatever ASCII-char you like (should be occurring not often in regular text)

    public static String encode(String s) {
        StringBuilder result = new StringBuilder(s.length() + 4 * 10); //buffer for 10 special characters (4 additional chars for every special char that gets replaced)
        for (char c : s.toCharArray()) {
            if ((int) c > 127 || c == MARK) {
                result.append(MARK).append((int) c).append(MARK);
            } else {
                result.append(c);
            }
        }
        return result.toString();
    }

    public static String decode(String s) {
        int lastMark = -1;
        ArrayList<Character> chars = new ArrayList<>();
        try {
            //noinspection InfiniteLoopStatement
            while (true) {
                String charString = s.substring(lastMark = s.indexOf(MARK, lastMark + 1) + 1, lastMark = s.indexOf(MARK, lastMark));
                char c = (char) Integer.parseInt(charString);
                chars.add(c);
            }
        } catch (IndexOutOfBoundsException | NumberFormatException ignored) {}

        for (char c : chars) {
            s = s.replace("" + MARK + ((int) c) + MARK, String.valueOf(c));
        }
        return s;
    }
}

希望这可以帮助某人。

于 2017-06-20T22:44:33.887 回答