我正在尝试使用正则表达式来解析网站
blahblahblah
<a href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah
(其中有很多,我希望它们都以某种标记化的形式出现)。问题是“a href”实际上有两个空格,而不仅仅是一个(有些是“a href”,有一个我不想检索的空格),所以使用 LXML 被证明是一件很痛苦的事,我不想使用 BeautifulSoup(出于其他原因)。有谁知道我该怎么做?
谢谢!