如果您说它是一个简单的正则表达式来解决您的问题,那么没有其他更有效的解决方案。当涉及到爬虫时,替代方法是将整个 html 页面加载到内存中,在 DOM 文档中并使用 XPath 甚至 XQuery 进行搜索。但实际上,如果可以使用正则表达式轻松提取信息,那么请不要打扰,特别是如果您不熟悉 XPath。
当您想要进行复杂的搜索时,XPath 的强大功能就派上用场了。对于这个任务,它比正则表达式更优雅(至少在 w3c 的意见中)。但是,如果您想要一个快速的解决方案,您已经找到了它,而且它在 RAM 方面也更有效。