在我正在解析的一些 XML 文件(通常是 RSS)中,我遇到了包含字符的文本,这些字符在我从节点中提取文本之后Today’s Newest
会变成这样。Today’s Newest
这告诉我我处理解码过程不正确。
我可以简单地修补我的脚本来修复这个错误,但是如果有许多其他字符变得乱码怎么办?在将 XML 文件转换为 UTF-8 脚本时,在不破坏编码的情况下消化 XML 文件的正确方法是什么?
以下是我尝试过的一些似乎不太奏效的方法:
$xml = file_get_contents($file);
// One: still contains ’
//$xml = @iconv('UTF-8', 'UTF-8//IGNORE', $xml);
// Two: LibXMLError Entity 'rsquo' not defined
//$xml = htmlentities($xml, null, 'UTF-8');
//$xml = htmlspecialchars_decode($xml, ENT_QUOTES);
// Three: still contains ’
//$xml = mb_convert_encoding($xml, "UTF-8", "UTF-8");
$xml = simplexml_load_string($xml, null, LIBXML_NOCDATA | LIBXML_NOENT);