我正在使用XML
R 包检索在线 XML 数据。我的问题是 UTF-8 编码在调用过程中丢失xmlToList
:例如,'é' 被 'é' 替换。这发生在 XML 解析期间。
这是一个代码片段,其中一个编码丢失的示例和另一个保留编码的示例(取决于数据源):
library(XML)
library(RCurl)
url = "http://www.bdm.insee.fr/series/sdmx/data/DEFAILLANCES-ENT-FR-ACT/M.AZ+BE.BRUT+CVS-CJO?lastNObservations=2"
res <- getURL(url)
xmlToList(res)
# encoding lost
url2 = "http://www.bdm.insee.fr/series/sdmx/conceptscheme/"
res2 <- getURL(url2)
xmlToList(res2)
# encoding kept
为什么关于编码的行为不同?我试图设置.encoding = "UTF-8"
,getURL
和 toenc2utf8(res)
但这并没有改变。
欢迎任何帮助!
谢谢,
热雷米
R version 3.2.1 (2015-06-18)
Platform: i386-w64-mingw32/i386 (32-bit)
Running under: Windows 7 (build 7601) Service Pack 1
locale:
[1] LC_COLLATE=French_France.1252 LC_CTYPE=French_France.1252
[3] LC_MONETARY=French_France.1252 LC_NUMERIC=C
[5] LC_TIME=French_France.1252
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] RCurl_1.95-4.7 bitops_1.0-6 XML_3.98-1.3
loaded via a namespace (and not attached):
[1] tools_3.2.1