我正在尝试解析一个网站以提取一些存储在正文中的数据,例如:
<body>
<b>INFORMATION</b>
Hookups: None
Group Sites: No
Station: No
<b>Details</b>
Ramp: Yes
</body>
我想使用 BeautifulSoup4 和 RegEx 来提取 Hookups 和 Group Sites 等的值,但我对 bs4 和 RegEx 都是新手。我尝试了以下方法来获取连接值:
soup = BeautifulSoup(open('doc.html'))
hookups = soup.find_all(re.compile("Hookups:(.*)Group"))
但是搜索结果是空的。