delphi - MSXML XPath 可以选择属性吗？（ UPD：真正的问题是默认的无前缀命名空间）

Question

我想尝试使用 MSXML 和 XPath 解析 Excel XML 电子表格文件。

它有一个根元素<Workbook xmlns.... xmlns....>和一堆下一级节点<Worksheet ss:Name="xxxx">。

<?xml version="1.0" encoding="UTF-8"?>
<?mso-application progid="Excel.Sheet"?>
<Workbook xmlns="urn:schemas-microsoft-com:office:spreadsheet"
 xmlns:o="urn:schemas-microsoft-com:office:office"
 xmlns:x="urn:schemas-microsoft-com:office:excel"
 xmlns:ss="urn:schemas-microsoft-com:office:spreadsheet"
 xmlns:html="http://www.w3.org/TR/REC-html40">

....

 <Worksheet ss:Name="Карточка">

....

 </Worksheet>
 <Worksheet ss:Name="Баланс">
...
...
...
  </Worksheet>
</Workbook>

在某个步骤，我想使用 XPath 来获取工作表的名称。

注意：我不希望间接获取名称，即首先选择这些Worksheet节点，然后手动枚举它们读取它们的ss:Name子属性节点。我能做到的，这不是这里的主题。

我想要的是利用 XPath 的灵活性：直接获取这些ss:Name节点而无需额外的间接层。

procedure DoParseSheets( FileName: string );
var
  rd: IXMLDocument;
  ns: IDOMNodeList;
  n: IDOMNode;
  sel: IDOMNodeSelect;
  ms:  IXMLDOMDocument2;
  ms1: IXMLDOMDocument;
  i: integer;
  s: string;
begin
  rd := TXMLDocument.Create(nil);

  rd.LoadFromFile( FileName );

  if Supports(rd.DocumentElement.DOMNode,
     IDOMNodeSelect, sel) then
  begin
    ms1 := (rd.DOMDocument as TMSDOMDocument).MSDocument;
    if Supports( ms1, IXMLDOMDocument2, ms) then begin
       ms.setProperty('SelectionNamespaces',
            'xmlns="urn:schemas-microsoft-com:office:spreadsheet" '+
            'xmlns:o="urn:schemas-microsoft-com:office:office" '+
            'xmlns:x="urn:schemas-microsoft-com:office:excel" '+
            'xmlns:ss="urn:schemas-microsoft-com:office:spreadsheet"');
       ms.setProperty('SelectionLanguage', 'XPath');
    end;

//    ns := sel.selectNodes('/Workbook/Worksheet/@ss:Name/text()');
//    ns := sel.selectNodes('/Workbook/Worksheet/@Name/text()');
    ns := sel.selectNodes('/Workbook/Worksheet/@ss:Name');
//    ns := sel.selectNodes('/Workbook/Worksheet/@Name');
//    ns := sel.selectNodes('/Workbook/Worksheet');

    for i := 0 to ns.length - 1 do
    begin
      n := ns.item[i];
      s := n.nodeValue;
      ShowMessage(s);
    end;
  end;
end;

当我使用简化'/Workbook/Worksheet'查询 MSXML 正确返回节点时。但是，只要我将属性添加到查询中，MSXML 就会返回空集。

XMLPad Pro 或http://www.freeformatter.com/xpath-tester.html等其他 XPath 实现正确地返回ss:Name属性节点列表。但 MSXML 没有。

帮助 MSXML 返回具有给定名称的属性节点的 XPath 查询文本是什么？

UPD。@koblik 建议链接到 MS.Net 选择器（不是 MSXML 选择器），那里有两个示例 https://msdn.microsoft.com/en-us/library/ms256086(v=vs.110).aspx

示例 1：book[@style]-当前上下文的所有具有样式属性的元素。
示例 2：book/@style-当前上下文的所有元素的样式属性。

这就是我在上面的“注意”中所说的区别：我不需要那些books，我需要styles。我需要属性节点，而不是元素节点！示例 2 的语法正是 MSXML 似乎失败的地方。

UPD.2：一位测试人员显示了一个有趣的错误声明： XPath 查询的默认（无前缀）命名空间 URI始终是 ''并且不能重新定义为 'urn:schemas-microsoft-com:office:spreadsheet' 我想知道是否这样声称 XPath 中没有默认命名空间实际上是标准的一部分，或者只是 MSXML 实现限制。

那么如果要删除默认的 NS，结果应该是这样的： Variant 1: Variant 2:

我想知道关于 XPath 中没有默认命名空间的说法是否真的是标准的一部分，或者只是 MSXML 实现限制。

UPD.3：Martin Honnen 在评论中解释了该行： See w3.org/TR/xpath/#node-tests for XPath 1.0（由 Microsoft MSXML 支持），它明确指出“节点测试中的 QName 扩展为使用表达式上下文中的命名空间声明的扩展名称。这与对开始和结束标记中的元素类型名称进行扩展的方式相同，只是不使用使用 xmlns 声明的默认命名空间：如果 QName 没有前缀，则命名空间 URI 为空”。因此，在 XPath 1.0 中，像“/Workbook/Worksheet”这样的路径会在没有命名空间的情况下选择该名称的元素。

UPD.4：因此选择适用于'/ss:Workbook/ss:Worksheet/@ss:Name'XPath 查询，直接返回“ss:Name”属性节点。在源 XML 文档中，默认（无前缀）和“ss:”命名空间都绑定到同一个 URI。此 URI 由 XPath 引擎确认。但不是默认命名空间，不能在 MSXML XPath 引擎中重新定义（实现 1.0 规范）。因此，为了使其工作，默认命名空间应通过 URI 映射到另一个显式前缀（已经存在的或新创建的），然后将在 XPath 选择字符串中使用该替代前缀。由于命名空间匹配通过 URI 而不是通过前缀，因此文档和查询中使用的前缀是否匹配并不重要，它们将通过它们的 URI 进行比较。

ms.setProperty('SelectionLanguage', 'XPath');
ms.setProperty('SelectionNamespaces',
   'xmlns:AnyPrefix="urn:schemas-microsoft-com:office:spreadsheet"');

接着

ns := sel.selectNodes( 
       '/AnyPrefix:Workbook/AnyPrefix:Worksheet/@AnyPrefix:Name' );

感谢 Asbjørn 和 Martin Honnen 解释了这些琐碎的事后但并不明显的先验关系。

score 3 · Accepted Answer

问题是 MSXML 在使用 XPath 时不支持默认命名空间。为了克服这个问题，你必须给默认命名空间一个明确的前缀，并使用这个：

ms.setProperty('SelectionNamespaces',
  'xmlns:d="urn:schemas-microsoft-com:office:spreadsheet" '+
  'xmlns:o="urn:schemas-microsoft-com:office:office" '+
  'xmlns:x="urn:schemas-microsoft-com:office:excel" '+
  'xmlns:ss="urn:schemas-microsoft-com:office:spreadsheet"');

请注意我是如何将d前缀添加到默认命名空间的。然后你可以像这样进行选择：

ns := sel.selectNodes('/d:Workbook/d:Worksheet/@ss:Name');

这样做的原因是在解析 XML 数据时，MSXML 将命名空间与每个节点相关联。在这个阶段，它确实处理默认命名空间，因此Workbook元素与urn:schemas-microsoft-com:office:spreadsheet命名空间相关联。

但是，请注意，它不存储命名空间前缀！因此，您可以在设置时为命名空间使用自己的前缀SelectionNamespaces。

现在，在进行 XPath 选择时，如果节点具有名称空间，您必须为 XPath 中的所有元素指定名称空间，就像我上面的示例一样。然后你使用你自己设置的前缀SelectionNamespaces。

delphi - MSXML XPath 可以选择属性吗？（ UPD：真正的问题是默认的无前缀命名空间）

1 回答 1

Related

Reference