我正在尝试解析一个网站
blahblahblah
<a href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah
(其中有很多,我希望它们都以某种标记化的形式出现)。问题是“a href”实际上有两个空格,而不仅仅是一个(有些是“a href”,我不想检索一个空格),所以使用 tree.xpath('//a/@ href') 不太好用。有人对该怎么做有任何建议吗?
谢谢!