2

我们有一个脚本,可以解析来自用户生成的源的 XML 提要,这些提要不时包含格式不正确的带有特殊字符的条目。

虽然我通常只在线运行 utf8_encode() ,但我不确定如何执行此操作,因为 DOM 正在逐步读取文件并在执行扩展命令时引发错误。

由于 simple_xml 阻塞了代码,后续行也关闭了。

这是代码。

$z = new XMLReader; 
$z->open($filename); $doc = new DOMDocument('1.0','UTF-8');         
while ($z->read() && $z->name !== 'product');   
while ($z->nodeType == XMLReader::ELEMENT AND $z->name === 'product'){
$producti = simplexml_import_dom($doc->importNode($z->expand(), true));
print_r($producti);
}

错误:

消息:XMLReader::expand(): foo.xml:29081: 解析器错误:输入不正确的 UTF-8,指示编码!字节:0x05 0x20 0x2D 0x35

严重性:警告

消息:XMLReader::expand(): 展开时发生错误

文件名:控制器/feeds.php

行号:106

消息:传递给 DOMDocument::importNode() 的参数 1 必须是 DOMNode 的实例,给定的布尔值

文件名:控制器/feeds.php

行号:106

4

1 回答 1

1

首先使用 HTML Tidy 库来清理你的字符串。

另外我最好使用 DOMDocument 而不是 XMLReader。

像这样的东西:

        $tidy = new Tidy;

        $config = array(
                'drop-font-tags' => true,
                'drop-proprietary-attributes' => true,
                'hide-comments' => true,
                'indent' => true,
                'logical-emphasis' => true,
                'numeric-entities' => true,
                'output-xhtml' => true,
                'wrap' => 0
        );

        $tidy->parseString($html, $config, 'utf8');

        $tidy->cleanRepair();

        $xml = $tidy->value; // Get clear string

        $dom = new DOMDocument;

        $dom->loadXML($xml);

        ...
于 2012-04-16T06:11:47.017 回答