java - Java UTF-8 编码未设置为 URLConnection

Question

我正在尝试从http://api.freebase.com/api/trans/raw/m/0h47检索数据

正如你在文本中看到的那样，有这样的歌声： /ælˈdʒɪəriə/。

当我尝试从页面获取源代码时，我会得到带有诸如此类的歌曲的文本ú。

到目前为止，我已尝试使用以下代码：

urlConnection.setRequestProperty("Accept-Charset", "UTF-8");
urlConnection.setRequestProperty("Content-Type", "application/x-www-form-urlencoded;charset=utf-8");

我究竟做错了什么？

我的整个代码：

URL url = null;
URLConnection urlConn = null;
DataInputStream input = null;
try {
url = new URL("http://api.freebase.com/api/trans/raw/m/0h47");
} catch (MalformedURLException e) {e.printStackTrace();}

try {
    urlConn = url.openConnection(); 
} catch (IOException e) { e.printStackTrace(); }
urlConn.setRequestProperty("Accept-Charset", "UTF-8");
urlConn.setRequestProperty("Content-Type", "text/plain; charset=utf-8");

urlConn.setDoInput(true);
urlConn.setUseCaches(false);

StringBuffer strBseznam = new StringBuffer();
if (strBseznam.length() > 0)
    strBseznam.deleteCharAt(strBseznam.length() - 1);

try {
    input = new DataInputStream(urlConn.getInputStream()); 
} catch (IOException e) { e.printStackTrace(); }
String str = "";
StringBuffer strB = new StringBuffer();
strB.setLength(0);
try {
    while (null != ((str = input.readLine()))) 
    {
        strB.append(str); 
    }
    input.close();
} catch (IOException e) { e.printStackTrace(); }

score 13 · Accepted Answer

HTML 页面采用 UTF-8 格式，可以使用阿拉伯字符等。但是那些高于 Unicode 127 的字符仍然被编码为数字实体，例如ú. Accept-Encoding 不会有帮助，并且加载为 UTF-8 是完全正确的。

您必须自己解码实体。就像是：

String decodeNumericEntities(String s) {
    StringBuffer sb = new StringBuffer();
    Matcher m = Pattern.compile("\\&#(\\d+);").matcher(s);
    while (m.find()) {
        int uc = Integer.parseInt(m.group(1));
        m.appendReplacement(sb, "");
        sb.appendCodepoint(uc);
    }
    m.appendTail(sb);
    return sb.toString();
}

顺便说一句，这些实体可能来自处理过的 HTML 表单，因此在 Web 应用程序的编辑端。

在有问题的代码之后：

我已将 DataInputStream 替换为 (Buffered)Reader 的文本。InputStreams 读取二进制数据，字节；读者文本，字符串。InputStreamReader 有一个 InputStream 和一个编码作为参数，并返回一个 Reader。

try {
    BufferedReader input = new BufferedReader(
            new InputStreamReader(urlConn.getInputStream(), "UTF-8")); 
    StringBuilder strB = new StringBuilder();
    String str;
    while (null != (str = input.readLine())) {
        strB.append(str).append("\r\n"); 
    }
    input.close();
} catch (IOException e) {
    e.printStackTrace();
}

score 6 · Accepted Answer

尝试将用户代理也添加到您的 URLConnection：

urlConnection.setRequestProperty("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.155 Safari/537.36");

这解决了我的解码问题，就像一个魅力。

score 2 · Accepted Answer

好吧，我认为问题出在您从流中读取时。您应该调用该readUTF方法DataInputStream而不是调用readLine，或者我会做的是创建一个并设置编码，然后您可以逐行InputStreamReader读取（这将在您现有的 try/catch 中）：BufferedReader

Charset charset = Charset.forName("UTF8");
InputStreamReader stream = new InputStreamReader(urlConn.getInputStream(), charset);
BufferedReader reader = new BufferedReader(stream);
StringBuffer responseBuffer = new StringBuffer();

String read = "";
while ((read = reader.readLine()) != null) {
    responseBuffer.append(read);
}

java - Java UTF-8 编码未设置为 URLConnection

3 回答 3

Related

Reference