php - PHP：仅解析命名空间的 xml

Question

我正在尝试解析这样的数据：

<vin:layout name="Page" xmlns:vin="http://www.example.com/vin">
    <header>
        {someText}
        <div>
            <!-- some invalid xml code -->
            <aas>
            <nav class="main">
                <vin:show section="Menu" />
            </nav>
        </div>
    </header>
</vin:layout>

如何在 PHP 中解析这样的数据？

我尝试了 DOM，但它不起作用，因为根元素内的 xml 格式错误。我可以告诉解析器，没有vin命名空间的一切都是文本吗？

score 1 · Accepted Answer

我可能会在上面扔一种 Tagsoup 解析器。可以阅读您的格式的东西，除了这些缺陷看起来还不错。没有什么东西会在文本上阻碍简单的基于正则表达式的扫描器。我Tagsoup只用你得到的四种节点类型给我打电话：开始标签、结束标签、文本和评论。对于标签，您需要了解它们的 Tagname 和 NamespacePrefix。只是为了方便起见，它的名称类似于 XML/HTML，但实际上这都是“你自己的”，所以不要将这些术语延伸到任何标准。

更改没有命名空间前缀的每个标签（开始或结束）的用法可能如下所示（$string包含您在问题中拥有的数据）：

$scanner = new TagsoupIterator($string);

$nsPrefix = 'vin';

foreach ($scanner as $node) {
    $isTag  = $node instanceof TagsoupTag;
    $isOfNs = $isTag && $node->getTagNsPrefix() === $nsPrefix;
    if ($isTag && !$isOfNs) {
        $node = strtr($node, ['&' => '&amp;', '<' => '&lt;']);
    }
    echo $node;
}

输出：

<vin:layout name="Page" xmlns:vin="http://www.example.com/vin">
    &lt;header>
        {someText}
        &lt;div>
            <!-- some invalid xml code -->
            &lt;aas>
            &lt;nav class="main">
                <vin:show section="Menu" />
            &lt;/nav>
        &lt;/div>
    &lt;/header>
</vin:layout>

提取命名空间的某个标记内的所有内容的用法可能如下所示：

$scanner = new TagsoupIterator($string);
$parser  = new TagsoupForwardNavigator($scanner);

$startTagWithNsPrefix = function ($namespace) {

    return function (TagsoupNode $node) use ($namespace) {

        /* @var $node TagsoupTag */
        return $node->getType() === Tagsoup::NODETYPE_STARTTAG
            && $node->getTagNsPrefix() === $namespace;
    };
};

$start = $parser->nextCondition($startTagWithNsPrefix('vin'));
$tag   = $start->getTagName();
$parser->next();
echo $html = implode($parser->getUntilEndTag($tag));

输出：

<header>
    {someText}
    <div>
        <!-- some invalid xml code -->
        <aas>
        <nav class="main">
            <vin:show section="Menu" />
        </nav>
    </div>
</header>

下一部分是替换$string. 由于 Tagsoup 提供二进制偏移量和长度，这很容易（我通过 SimpleXML 快捷方式有点脏）：

$xml = substr($string, 0, $start->getEnd()) . substr($string, $parser->getOffset());
$doc = new SimpleXMLElement($xml);
$doc[0] = $html;
echo $doc->asXML();

输出：

<vin:layout xmlns:vin="http://www.example.com/vin" name="Page">
    &lt;header&gt;
        {someText}
        &lt;div&gt;
            &lt;!-- some invalid xml code --&gt;
            &lt;aas&gt;
            &lt;nav class="main"&gt;
                &lt;vin:show section="Menu" /&gt;
            &lt;/nav&gt;
        &lt;/div&gt;
    &lt;/header&gt;
</vin:layout>

根据具体需求，这将需要更改实施。例如，这个不允许将相同的标签放在一起。它不会把你赶出去，但它不会处理这个问题。不知道你是否有这种情况，如果有，你需要添加一些打开/关闭计数器，导航器类可以很容易地扩展，甚至提供两种结束标签查找方法。

此处给出的示例使用了您可以在此要点中看到的 Tagsoup：https ://gist.github.com/4415105

php - PHP：仅解析命名空间的 xml

1 回答 1

Related

Reference