1

我有一个从it.dbpedia.org中提取的带有多个编码“错误”的字符向量。事实上,每个重音字符都被错误地渲染为,"\"Democrazia è Libertà - La Margherita\"@it"而不是\"Democrazia è Libertà - La Margherita\"@it.

我在这里找到了这种编码问题的调试图。我仍然注意到“实际”和“预期”字符之间的关系不是一对一(如我所料)而是一对多。然后我的字符“Ô可能会翻译为“Á”、“Í”、“Ï”、“Д、“Ý”、“à”。换句话说,我不能对实际/预期字符使用模式/替换解决方案。

我可以使用带有 Unicode 代码点/预期字符的模式/替换解决方案吗?如何传递给gsub()unicode 代码点而不是实际字符?

我应该使用包stringi来解决编码问题吗?如何?

更新:我刚刚注意到问题出在源头:SPARQL 的 XML 输出。

注意:与这个未回答的问题有关。

4

0 回答 0