1

我需要从 HTML 文档中提取数据并仅包含有趣信息的 XML 文档。我这样做的方法是将 HTML 文档逐步转换为 XML 文档。我在一行中有 5 个最外面的 XML 标记,现在我正在尝试构建其中的内容。

我有一条这样结构的线:

   <myTag> 
      blablabla <a href="link/I/want" *some css* > title I want </a> some other stuff <a href="link that/I/don't/want" *some css*> text I don't want </a> blablabla 
   </myTag>

我想要的是:

    <myTag>
    <link>link/I/want</link>
    <title> title I want </title>
    </myTag>

我拥有的正则表达式是:

    /a href="(.*)"(.*)>(.*)<\/a>/ 

希望得到 #$1 = url , $2 = 不管 , $3 = 标题。

这不起作用,因为它取而代之的是:

    <myTag>
    <link>link/I/want *some css* > title I want </a> some other stuff <a href="link that/I/don't/want" *some css*</link>
    <titl>text I don't want</title>
    </myTag>

如何提取该行的 FIRST 锚标记的内容?

谢谢 !

4

1 回答 1

3

只需使用非贪婪表达式:

/a href="(.*?)"(.*?)>(.*?)<\/a>/

每个. ?_*

于 2012-10-03T21:17:58.813 回答