我正在阅读一个 HTML 网页,其中包含文字重音词(西班牙语):
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<title>Web page</title>
<body>
<p>Título</p>
<p>Año</p>
<p>Ángel</p>
<p>¿por qué nos vamos?</p>
</body>
我正在使用HXT:
...
let doc = readDocument [ withValidate no
, withInputEncoding iso8859_1
, withParseHTML yes
, withWarnings no
, withEncodingErrors no
, withCurl []] url
...
使用选项
withInputEncoding utf8
丢弃这些字符,得到以下单词:Ttulo , Ao , ngel , por qu nos vamos? 使用选项
withInputEncoding iso8859_1
将这些字符转换为字符串,得到如下结果词:Rom\225ntica,Man\180s,H\233ctor。其中\225、\180或\233是字符串,而不是字符。
在 HXT 中正确管理这种情况并在不修改的情况下获取所有单词的最佳方法/方式/方法是什么?
谢谢。