我正在尝试使用 MATLAB 读取波兰树库的以下 XML 文件:http: //zil.ipipan.waw.pl/Sk%C5%82adnica?action=AttachFile&do=view&target=Sk%C5%82adnica- frazowa- 0.5-TigerXML.xml.gz
波兰字母似乎被编码为 HTML 代码:http ://webdesign.about.com/od/localization/l/blhtmlcodes-pl.htm
例如,ł
代表“ł”。如果我使用“UTF-8”打开树库,我会得到类似 的词kłaniał
,实际上应该显示为“kłaniał”
现在,我看到了正确读取树库的 2 个选项:
- 直接读取 XML 文件,以便将 HTML 代码转换为相应的字符。
- 首先以非解码格式(例如 as
kłaniał
)保存单词,然后转换字符。
是否可以在 MATLAB 中执行 2 个选项之一(或两者)?