java - 从 JSON 文件中检测和解析转义字符“\”？

Question

我在处理 JSON 文件的数据时遇到问题。我正在使用来自谷歌的以下链接。

http://www.google.com/finance/company_news?q=AAPL&output=json"

当我想解析数据并将其放在屏幕上时，就会出现我的问题。由于某种原因，数据没有被正确解码。

原始数据：

 1.) one which must have set many of the company\x26#39;s board on the edge of their
 2.) Making Less Money From Next \x3cb\x3e...\x3c/b\x3e

当我引入数据时，我会执行以下操作：

DefaultHttpClient httpClient = new DefaultHttpClient();
HttpPost httpPost = new HttpPost(url);
HttpResponse httpResponse = httpClient.execute(httpPost);
HttpEntity httpEntity = httpResponse.getEntity();
is = httpEntity.getContent();        
BufferedReader reader = new BufferedReader(new InputStreamReader(
                is, "iso-8859-1"), 8); 
StringBuilder sb = new StringBuilder();
String line = null;
        while ((line = reader.readLine()) != null) {
            sb.append(line + "n");
}
is.close();
json = sb.toString();

我收到的输出，使用 org.json 从 json 文件中提取数据，如下（注意缺少反斜杠）：

1.)one which must have set many of the companyx26#39;s board on the edge of their
2.)Making Less Money From Next x3cbx3e...x3c/bx3e

我目前处理第一个问题的方法是：

JSONRowData.setJTitle((Html.fromHtml((article.getString(TAG_TITLE).replaceAll("x26", "&")))).toString());

第二个虽然逃脱了我（没有双关语）

我认为这不起作用的原因是反冲用于转义字符。我尝试了许多不同的方法来读取数据，但我没有运气。有没有办法在不使用正则表达式的情况下导入数据来处理这个问题？

解决方案

我们今天的克星：“\x26”——ASCII（十六进制）

将原始数据读入字符数组。来自 apache 的 commons.io 库是一个很好的方法。完成此操作后，在 for 循环中读取 char 数组以查找“\”，如果命中则在下一个数组位置查找“x”。如果再次命中，则取 char 数组中的下两个字符。这两个字符是您的 ASCII 十六进制值。将十六进制转换为十进制形式，然后将十进制转换为字符。获取此字符并将其附加到字符串生成器。

如果没有匹配（带有“\”），则将字符附加到字符串生成器。我们现在可以调用该.toString()方法并将其转换为字符串。

从那里，数据可能包含一些 HTML 残余（'和/或在这种情况下）。使用 Html.fromHtml() 处理了这个。

score 3 · Accepted Answer

这里的问题是 google - 或者至少是那个 url -提供了无效的JSON ^1,2。JSON 库虽然没有直接拒绝无效的 JSON，但正在以“好吧，让我们忽略这个\废话并继续”的方式对其进行解析。也就是说，不是渲染错误，而是输入错误。

¹不允许出现\x在字符串中（除非本身\已转义），因为（\未转义时）后面只能跟一小部分字符（不包括x）。字符代码的转义必须由\u1234and not完成\x12。

我能想到的唯一“修复”是非常严重的黑客攻击：即阅读原始文本并转换\x12为\u0012. （实际上，黑客攻击并没有那么糟糕，因为不需要考虑上下文相关的东西；但是，它不应该是必需的！在 Google 上感到羞耻。）

²提取的无效JSON 字符串文字：

“苹果公司（纳斯达克股票代码：AAPL）的股票在今年的表现中继续领跑大型科技股。在周一开始的关键事件之后，该股的价格没有出现重大变动。”

（要使其有效，请替换\x26为\u0026or &。）

快乐的编码和 - 祝你好运:)

在 Java 中，一种 [未经测试的] 方法可能是使用正则表达式（通过String.replaceAll）：

inputString.replaceAll("\\x(\d{2})", "\\u00$1")

java - 从 JSON 文件中检测和解析转义字符“\”？

1 回答 1

Related

Reference