xml - xslt 中的模式匹配

Question

我有以下xml

<xml>
    <para>
       <number>1</number>
       <text> Paragraph 1(<italic>A</italic>) is this para.</text>
    </para>
</xml>

如果我发现一个以单词 Paragraph 开头的模式，后跟空格，后跟一个或多个数字，后跟“（”，后跟节点斜体和数字并关闭“）”，我想匹配文本元素。然后它应该在它周围放置一个锚标签。所以上述xml的输出应该是

 <xml>
    <para>
       <number>1</number>
       <text> <a href="Paragraph1(A)">Paragraph 1(<italic>A</italic>)</a> is this para.</text>
    </para>
</xml>

即Paragraph 1(<italic>A</italic>)用标签替换，href 值应该是匹配的文本，没有任何空格和斜体节点。

任何帮助或提示如何在正则表达式中处理......

score 2 · Accepted Answer

这个 XSLT 2.0 样式表产生了期望的结果：

<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="2.0">
    <xsl:output omit-xml-declaration="no" indent="yes"/>

    <xsl:template match="@*|node()">
        <xsl:copy>
            <xsl:apply-templates select="@*|node()"/>
        </xsl:copy>
    </xsl:template>

    <!-- Only our text element requires special handling here....-->
    <xsl:template match="text[matches(.,'Paragraph\s+\d*')]">
        <xsl:copy>
            <xsl:variable name="textElement" select="."/>
            <xsl:analyze-string select="." regex="(Paragraph\s+\d*)(\(.*\))">
                <xsl:matching-substring>
                    <a href="{concat(replace(regex-group(1),'\s',''),regex-group(2))}">
                        <xsl:apply-templates select="$textElement/node()"/>
                    </a>
                </xsl:matching-substring>
            </xsl:analyze-string>       
        </xsl:copy>
    </xsl:template>

</xsl:stylesheet>

score 1 · Accepted Answer

这可以让您了解如何解决它：

<?xml version="1.0"?>

<xsl:template match="/">
    <xsl:apply-templates/>
</xsl:template>

    <!-- Only our text element requires special handling here....-->
<xsl:template match="text">
    <xsl:copy>
        <xsl:choose>
            <xsl:when test="matches(.,'Paragraph\s+\d*')">
                <!-- Save original text value here -->
                <xsl:variable name="temp" select="."/>
                <!-- Save the value of <italic>x</italic> child element -->
                <xsl:variable name="italic_val" select="italic/text()"/>
                <xsl:analyze-string select="." regex="(Paragraph\s+\d*)">
                    <xsl:matching-substring>
                        <xsl:element name="a">
                            <xsl:attribute name="href">
                                <xsl:value-of select="concat(replace(regex-group(1),'\s',''),'(',$italic_val,')')"/>
                            </xsl:attribute>
                            <xsl:value-of select="$temp"/>
                        </xsl:element>
                    </xsl:matching-substring>
                </xsl:analyze-string>

            </xsl:when>
            <xsl:otherwise>DOESNT MATCH</xsl:otherwise>
        </xsl:choose>
    </xsl:copy>
</xsl:template>

<xsl:template match="@*|node()">
    <xsl:copy>
        <xsl:apply-templates select="@*|node()"/>
    </xsl:copy>
</xsl:template>

它基本上使用 XSLT 标识模板来复制原始文档并定义一个模板来处理<text>元素。它在那里分析其 Text() 内容和适当的正则表达式： Paragraph 。如果它发现它生成了anchor子结构。为此，我使用了一些临时变量。

这是我的输出文件：

<xml>
  <para>
    <number>1</number>
    <text><a href="Paragraph1(A)"> Paragraph 1(A) is this para.</a></text>
  </para>
</xml>

我仍然缺少第 1( <italic>A</italic>) 段，而不是我得到的：第 1(A) 段，但这只是一些调整......

看看这个链接它可以帮助你理解 XSLT 中的 Regex

注意它使用 XSLT 2.0

score 0 · Accepted Answer

为什么你需要正则表达式呢？下面的代码有什么问题？

<?xml version="1.0" encoding="utf-8"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
    <xsl:output method="xml" indent="yes"/>

    <xsl:template match="@* | node()">
        <xsl:copy>
            <xsl:apply-templates select="@* | node()"/>
        </xsl:copy>
    </xsl:template>

  <xsl:template match="/xml/para/text">
    <xsl:copy>
      <a href="Paragraph1(A)">
        <xsl:apply-templates select="@*|node()"/>
      </a>
    </xsl:copy>
  </xsl:template>
</xsl:stylesheet>

score 0 · Accepted Answer

此正则表达式没有周围的引号：

".*(Paragraph ([0-9]+)`\`(<italic>([0-9])</italic>`\`)"

将为您提供一个外层捕获组和 2 个嵌入式捕获组，这些捕获组将为您提供值。外层捕获组是#1，2 个嵌入式捕获组是#2 和#3。请注意，文字值 '(' 用 ' \' 转义，因为 '(' 是正则表达式中的保留字符。

xml - xslt 中的模式匹配

4 回答 4

Related

Reference