java - 如何检测我的 JSON 字符串是否在 Java 中转义了 HTML 标签

Question

我正在尝试用 Java 编写一个单元测试来测试编码的 JSON 值。我正在尝试执行以下操作：

assertEquals(expectedJSON(),actualJSON())

expectedJSON()返回的位置

{
    "someHtml": {
        "html": "<html>HTML&CSS</html>"
    }
}

实际JSON（）返回的地方

 {
        "someHtml": {
            "html": "\u003Chtml\u003EHTML\u0026CSS\u003C/html\u003E"
        }
    }

我希望预期的 JSON 返回实际 JSON() 返回的内容，但我无法找到一种简单的方法来做到这一点。我在网上查过，但在这方面没有找到任何容易的东西。实际的JSON()正在做一些复杂的处理，需要以这种方式返回值。我的expectedJSON()方法看起来像这样

public String expectedJSONWithHTMLValues(){
        return "{" +
                    "\"someHtml\":{" +
                  "\"html\":\"\u003Chtml\u003EHTML\u0026CSS\u003C/html\u003E\"}}";
    }

score 6 · Accepted Answer

为了补充另一个答案，\u转义在 Java 中有一个有趣的属性，它们实际上是由编译器预处理的（ JLS §3.3）。

我的意思是在进入编译器之前\u在源文件中替换字符。因此，您的代码：

public String expectedJSONWithHTMLValues(){
    return "{" +
           "\"someHtml\":{" +
           "\"html\":\"\u003Chtml\u003EHTML\u0026CSS\u003C/html\u003E\"}}";
}

正在被预处理为：

public String expectedJSONWithHTMLValues(){
    return "{" +
           "\"someHtml\":{" +
           "\"html\":\"<html>HTML&CSS</html>\"}}";
}

这就是正在编译的内容。

Java 编译器将\u在实际编译文件之前将任何转义转换为字符。这意味着\u转义可以用于变量名、类名、方法名等。编译器会将其转化为字符本身并在编译过程中使用。这就是为什么你应该\n在你的字符串中使用而不是\u000a. 如果您使用后者，源代码将来自以下内容：

String s = "My\u000aNewline";

对此：

String s = "My
Newline";

这将导致编译器错误，因为String文字被分成多行。

这可以让你做一些非常糟糕的事情。例如，这是 100% 合法的 Java 代码，可以在任何操作系统上编译：

\u0070\u0075\u0062\u006c\u0069\u0063 \u0063\u006c\u0061\u0073\u0073 \u004d\u0061\u0069\u006e \u007b

    \u0070\u0072\u0069\u0076\u0061\u0074\u0065 \u0073\u0074\u0061\u0074\u0069\u0063 \u0053\u0074\u0072\u0069\u006e\u0067 \u0073\u006f\u006d\u0065\u0053\u0074\u0072\u0069\u006e\u0067 \u003d \u0022\u004d\u0079 \u0053\u0074\u0072\u0069\u006e\u0067\u0022\u003b

    \u0070\u0075\u0062\u006c\u0069\u0063 \u0073\u0074\u0061\u0074\u0069\u0063 \u0076\u006f\u0069\u0064 \u006d\u0061\u0069\u006e\u0028\u0053\u0074\u0072\u0069\u006e\u0067\u005b\u005d \u0061\u0072\u0067\u0073\u0029 \u007b
        \u0053\u0079\u0073\u0074\u0065\u006d\u002e\u006f\u0075\u0074\u002e\u0070\u0072\u0069\u006e\u0074\u006c\u006e\u0028\u0073\u006f\u006d\u0065\u0053\u0074\u0072\u0069\u006e\u0067\u0029\u003b
    \u007d
\u007d

它打印：

My String

不相信我？你自己看。编译器首先将所有\u转义转换为字符，然后将所有 like\u0070\u0072\u0069\u0076\u0061\u0074\u0065转换为private或。\u0073\u0074\u0061\u0074\u0069\u0063\u0053\u0074\u0072\u0069\u006e\u0067String

无论如何，要解决您的特定问题，您需要做的就是双重转义，\如下所示：

public String expectedJSONWithHTMLValues(){
    return "{" +
           "\"someHtml\":{" +
           "\"html\":\"\\u003Chtml\\u003EHTML\\u0026CSS\\u003C/html\\u003E\"}}";
}

还值得注意的是，这个字符串：

{"someHtml":{"html":"\u003Chtml\u003EHTML\u0026CSS\u003C/html\u003E"}}

不等于此字符串，其中添加了空格：

{
    "someHtml": {
        "html": "\u003Chtml\u003EHTML\u0026CSS\u003C/html\u003E"
    }
}

String.equals将在等式中包含空格，因此请确保您的两个字符串逐个字符相同，包括空格。

score 1 · Accepted Answer

反斜杠在常量中具有特殊含义，String不仅在您编写时，"\""而且在您编写类似"\u003C". 在后一种情况下，序列\u003C被 Unicode 字符 U+003C 替换，即'<'. 如果您想要文字序列\u003C，则必须引用反斜杠本身以在String常量中插入反斜杠字符："\\u003C"。

请注意，String由于空格差异，您的匹配仍然可能失败。由于从 JSON 的角度来看，该空格是可以忽略的，因此String对 JSON 值执行精确匹配并不是一个好主意。

java - 如何检测我的 JSON 字符串是否在 Java 中转义了 HTML 标签

2 回答 2

Related

Reference