1

我正在构建一个工具来使用 XPath 表达式从用户指定的 XML 文件中获取数据。简单的 XML 文件和具有单个命名空间的 XML 文件可以正常工作,但我没有让以下 XML 文件在不同层次结构级别覆盖相同前缀的情况下工作:

<?xml version="1.0"?>
<?mso-application progid="Excel.Sheet"?>
<Workbook xmlns="urn:schemas-microsoft-com:office:spreadsheet"
 xmlns:o="urn:schemas-microsoft-com:office:office"
 xmlns:x="urn:schemas-microsoft-com:office:excel"
 xmlns:ss="urn:schemas-microsoft-com:office:spreadsheet"
 xmlns:html="http://www.w3.org/TR/REC-html40">
 <DocumentProperties xmlns="urn:schemas-microsoft-com:office:office">
  <Author>Microsoft Office User</Author>
  <LastAuthor>Microsoft Office User</LastAuthor>
  <Created>2019-12-03T15:40:13Z</Created>
  <Version>16.00</Version>
 </DocumentProperties>
 <OfficeDocumentSettings xmlns="urn:schemas-microsoft-com:office:office">
  <AllowPNG/>
 </OfficeDocumentSettings>
 <ExcelWorkbook xmlns="urn:schemas-microsoft-com:office:excel">
  <WindowHeight>13820</WindowHeight>
  <WindowWidth>23740</WindowWidth>
  <WindowTopX>1520</WindowTopX>
  <WindowTopY>1620</WindowTopY>
  <ProtectStructure>False</ProtectStructure>
  <ProtectWindows>False</ProtectWindows>
 </ExcelWorkbook>
 <Styles>
  <Style ss:ID="Default" ss:Name="Normal">
   <Alignment ss:Vertical="Bottom"/>
   <Borders/>
   <Font ss:FontName="Calibri" x:Family="Swiss" ss:Size="12" ss:Color="#000000"/>
   <Interior/>
   <NumberFormat/>
   <Protection/>
  </Style>
 </Styles>
 <Worksheet ss:Name="Blad1">
  <Table ss:ExpandedColumnCount="2" ss:ExpandedRowCount="8" x:FullColumns="1"
   x:FullRows="1" ss:DefaultColumnWidth="65" ss:DefaultRowHeight="16">
   <Row>
    <Cell><Data ss:Type="String">dfgdfgdfg</Data></Cell>
    <Cell><Data ss:Type="Number">1150</Data></Cell>
   </Row>
   <Row>
    <Cell><Data ss:Type="String">werwerwe</Data></Cell>
    <Cell><Data ss:Type="Number">889</Data></Cell>
   </Row>
  </Table>
  <WorksheetOptions xmlns="urn:schemas-microsoft-com:office:excel">
   <PageSetup>
    <Header x:Margin="0.3"/>
    <Footer x:Margin="0.3"/>
    <PageMargins x:Bottom="0.75" x:Left="0.7" x:Right="0.7" x:Top="0.75"/>
   </PageSetup>
   <Selected/>
   <Panes>
    <Pane>
     <Number>3</Number>
     <RangeSelection>R1C1:R8C2</RangeSelection>
    </Pane>
   </Panes>
   <ProtectObjects>False</ProtectObjects>
   <ProtectScenarios>False</ProtectScenarios>
  </WorksheetOptions>
 </Worksheet>
</Workbook>

我正在测试的 xpath 是

/Workbook[@xmlns="urn:schemas-microsoft-com:office:spreadsheet"]/Worksheet[@ss:Name="Blad1"]/Table[@ss:ExpandedColumnCount="2"]/Row[1]/Cell[2]/Data[@ss:Type="Number"]/text()

这是解析和搜索节点的代码:

// downloadedData is a string with the xml, xPath is the string with the xpath

var parser, xmlDoc;

parser = new DOMParser();
xmlDoc = parser.parseFromString(downloadedData, "text/xml");

var xmlEvaluator = new XPathEvaluator();
var xmlResolver = xmlEvaluator.createNSResolver(xmlDoc);
var node = xmlEvaluator.evaluate(xPath, xmlDoc, xmlResolver, XPathResult.FIRST_ORDERED_NODE_TYPE, null);

/// node always empty here

编辑:删除代码中的错字(与实际问题无关)

4

2 回答 2

2

XPath 数据模型中的命名空间不是属性,所以这永远不会起作用:

Workbook[@xmlns="urn:schemas-microsoft-com:office:spreadsheet"]

相反,您需要绑定命名空间前缀并在元素名称中使用它们:

x:Workbook

其中命名空间前缀 x 绑定到 URI“urn:schemas-microsoft-com:office:spreadsheet”。绑定是使用 namespaceResolver 建立的,如下所述:

https://developer.mozilla.org/en-US/docs/Web/JavaScript/Introduction_to_using_XPath_in_JavaScript

于 2019-12-12T16:32:50.120 回答
1

@MichaelKay 指出命名空间不是属性是正确的。以下是一些支持细节,用于进行必要的调整,以便您的 XPath 能够正常工作......

  1. 修复一个不相关的错误。改变

    xmlDoc = parser.parseFromString(downloadedData, ''), "text/xml");
    

    这在语法上不正确

    xmlDoc = parser.parseFromString(downloadedData, 'text/xml');
    
  2. 请注意,您的 XML 已经为所有需要的组件声明了命名空间前缀,因此您不必创建自定义的nsResolver(); xmlEvaluator.createNSResolver()在你做的时候打电话就足够了。

  3. 修复您的 XPath 以正确使用命名空间前缀:

    xPath = '/ss:Workbook/ss:Worksheet[@ss:Name="Blad1"]/ss:Table[@ss:ExpandedColumnCount="2"]/ss:Row[1]/ss:Cell[2]/ss:Data[@ss:Type="Number"]/text()';
    

您的代码现在将正常运行,允许针对您的 OOXML 进行 XPath 选择。

另请参阅XPath 如何处理 XML 名称空间?

于 2019-12-12T17:51:59.390 回答