我正在寻找一条建议,因为我是 python 的新手。
假设我有多个类似于以下的数据块:
<td>
<a href="address.com" title=title">some title</a>
<br />
aaa<br />
bbb<br />
ccc</td>
有时 br 的数量会有所不同,并且并非对所有块都是恒定的。
我的目的是从 td 块内部提取数据到文件,但是我卡在这里。
这里的正则表达式是最好的方法吗?
先感谢您。
使用 BeautifulSoup ( ) 之类的 HTML 解析器解析 HTML pip install beautifulsoup4
:
from bs4 import BeautifulSoup
html = """
<td> <a href="address.com" title=title">some title</a> <br /> aaa<br /> bbb<br /> ccc</td>
"""
soup = BeautifulSoup(html)
for td in soup.find_all('td'):
print(td.get_text())
结果:
some title aaa bbb ccc