8

我需要将来自外部源的 XML 文档加载到 PHP 中。XML 未声明其编码并包含非法字符,例如&. 如果我尝试直接在浏览器中加载 XML 文档,我会收到诸如“在文本内容中发现无效字符”之类的错误,在 PHP 中加载文件时也会收到很多警告,例如:xmlParseEntityRef: no name in EntityInput is not proper UTF-8, indicate encoding ! Bytes: 0x9C 0x31 0x21 0x3C.

很明显,XML 格式不正确,并且包含应转换为 XML 实体的非法字符。

这是因为 XML 提要由许多其他用户提供的数据组成,并且在我得到它之前显然没有经过验证或重新格式化。

我已经与 XML 提要的供应商进行了交谈,他们说他们正试图让内容提供者对其进行整理,但这似乎很愚蠢,因为他们应该首先验证输入。

我基本上需要修复 XML,纠正任何编码错误并将任何非法字符转换为 XML 实体,以便在使用 PHP 的 DOMDocument 函数时出现 XML 加载问题。

我的代码目前看起来像:

  $feedURL = '3704017_14022010_050004.xml';
  $dom = new DOMDocument();
  $dom->load($feedURL);

显示编码问题的示例 XML 文件(点击下载):feed.xml

包含尚未转换为 XML 实体的字符的示例 XML:

<?xml version="1.0"?>
<feed>
<RECORD>
<ID>117387</ID>
<ADVERTISERNAME>Test</ADVERTISERNAME>
<AID>10544740</AID>
<NAME>This & This</NAME>
<DESCRIPTION>For one day only this is > than this.</DESCRIPTION>
</RECORD>
</feed>
4

3 回答 3

11

要解决此问题,请在加载 XML 文档之前将DomDocument 恢复属性设置为TRUE

$dom->recover = TRUE;

试试这个代码:

$feedURL = '3704017_14022010_050004.xml';
$dom = new DOMDocument();
$dom->recover = TRUE;
$dom->load($feedURL);
于 2012-02-14T18:10:05.493 回答
8

尝试使用可用于清理不良 HTML 和 XML http://php.net/manual/en/book.tidy.php的 Tidy 库

一个纯 PHP 解决方案来修复一些 XML,如下所示:

<?xml version="1.0"?>
<feed>
<RECORD>
<ID>117387</ID>
<ADVERTISERNAME>Test < texter</ADVERTISERNAME>
<AID>10544740</AID>
<NAME>This & This</NAME>
<DESCRIPTION>For one day only this is > than this.</DESCRIPTION>
</RECORD>
</feed>

会是这样的:

  function cleanupXML($xml) {
    $xmlOut = '';
    $inTag = false;
    $xmlLen = strlen($xml);
    for($i=0; $i < $xmlLen; ++$i) {
        $char = $xml[$i];
        // $nextChar = $xml[$i+1];
        switch ($char) {
        case '<':
          if (!$inTag) {
              // Seek forward for the next tag boundry
              for($j = $i+1; $j < $xmlLen; ++$j) {
                 $nextChar = $xml[$j];
                 switch($nextChar) {
                 case '<':  // Means a < in text
                   $char = htmlentities($char);
                   break 2;
                 case '>':  // Means we are in a tag
                   $inTag = true;
                   break 2;
                 }
              }
          } else {
             $char = htmlentities($char);
          }
          break;
        case '>':
          if (!$inTag) {  // No need to seek ahead here
             $char = htmlentities($char);
          } else {
             $inTag = false;
          }
          break;
        default:
          if (!$inTag) {
             $char = htmlentities($char);
          }
          break;
        }
        $xmlOut .= $char;
    }
    return $xmlOut;
  }

这是一个简单的状态机,记录我们是否在标签中,如果不是,则使用 htmlentities 对文本进行编码。

值得注意的是,这将占用大文件的内存,因此您可能希望将其重写为流插件或预处理器。

于 2010-02-15T16:23:06.340 回答
0

如果 tidy 扩展不是一个选项,你可以考虑htmlpurifier

于 2015-09-17T21:46:48.167 回答