我正在使用 JSoup 从网页中获取 H1 标签值,该标签包含以下 HTML。
己基β-D-吡喃葡萄糖苷
当我使用 .text() 方法时,我得到以下信息。(注意?)我认为这是因为它无法计算出“β”字符的 HTML。我如何获得在网页上呈现的这个值。
己基 α-D-吡喃葡萄糖苷
拿起我想要的文字后,是否需要进行某种转换?
这是我的代码。
String check = "<title>Hexyl β-D-glucopyranoside ≥98.0% (TLC) | ≥ ≥</title>";
Document doc3 = Jsoup.parse(check);
doc3.outputSettings().escapeMode(Entities.EscapeMode.base); // default
doc3.outputSettings().charset("UTF-8");
System.out.println("UTF-8: " + doc3.html());
//doc3.outputSettings().charset("ISO 8859-1");
doc3.outputSettings().charset("ASCII");
System.out.println("ASCII: " + doc3.html());`
------控制台输出-----
UTF-8: <html>
<head>
<title>Hexyl ?-D-glucopyranoside ?98.0% (TLC) | ? ? </title>
</head>
<body></body>
</html>
ASCII: <html>
<head>
<title>Hexyl β-D-glucopyranoside ≥98.0% (TLC) | ≥ ≥</title>
</head>
<body></body>
</html>