我需要从 HTML 文档中提取数据并仅包含有趣信息的 XML 文档。我这样做的方法是将 HTML 文档逐步转换为 XML 文档。我在一行中有 5 个最外面的 XML 标记,现在我正在尝试构建其中的内容。
我有一条这样结构的线:
<myTag>
blablabla <a href="link/I/want" *some css* > title I want </a> some other stuff <a href="link that/I/don't/want" *some css*> text I don't want </a> blablabla
</myTag>
我想要的是:
<myTag>
<link>link/I/want</link>
<title> title I want </title>
</myTag>
我拥有的正则表达式是:
/a href="(.*)"(.*)>(.*)<\/a>/
希望得到 #$1 = url , $2 = 不管 , $3 = 标题。
这不起作用,因为它取而代之的是:
<myTag>
<link>link/I/want *some css* > title I want </a> some other stuff <a href="link that/I/don't/want" *some css*</link>
<titl>text I don't want</title>
</myTag>
如何提取该行的 FIRST 锚标记的内容?
谢谢 !