regex - 匹配指定的第一个子字符串的 Perl 正则表达式

Question

我需要从 HTML 文档中提取数据并仅包含有趣信息的 XML 文档。我这样做的方法是将 HTML 文档逐步转换为 XML 文档。我在一行中有 5 个最外面的 XML 标记，现在我正在尝试构建其中的内容。

我有一条这样结构的线：

   <myTag> 
      blablabla <a href="link/I/want" *some css* > title I want </a> some other stuff <a href="link that/I/don't/want" *some css*> text I don't want </a> blablabla 
   </myTag>

我想要的是：

    <myTag>
    <link>link/I/want</link>
    <title> title I want </title>
    </myTag>

我拥有的正则表达式是：

    /a href="(.*)"(.*)>(.*)<\/a>/

希望得到 #$1 = url ， $2 = 不管， $3 = 标题。

这不起作用，因为它取而代之的是：

    <myTag>
    <link>link/I/want *some css* > title I want </a> some other stuff <a href="link that/I/don't/want" *some css*</link>
    <titl>text I don't want</title>
    </myTag>

如何提取该行的 FIRST 锚标记的内容？

谢谢！

score 3 · Accepted Answer

3

只需使用非贪婪表达式：

/a href="(.*?)"(.*?)>(.*?)<\/a>/

每个. ?_*

于 2012-10-03T21:17:58.813 回答

regex - 匹配指定的第一个子字符串的 Perl 正则表达式

1 回答 1

Related

Reference