0

我正在寻找一条建议,因为我是 python 的新手。

假设我有多个类似于以下的数据块:

<td> <a href="address.com" title=title">some title</a> <br /> aaa<br /> bbb<br /> ccc</td>

有时 br 的数量会有所不同,并且并非对所有块都是恒定的。

我的目的是从 td 块内部提取数据到文件,但是我卡在这里。

这里的正则表达式是最好的方法吗?

先感谢您。

4

1 回答 1

5

使用 BeautifulSoup ( ) 之类的 HTML 解析器解析 HTML pip install beautifulsoup4

from bs4 import BeautifulSoup

html = """
<td> <a href="address.com" title=title">some title</a> <br /> aaa<br /> bbb<br /> ccc</td>
"""

soup = BeautifulSoup(html)

for td in soup.find_all('td'):
    print(td.get_text())

结果:

 some title  aaa bbb ccc
于 2013-06-09T19:11:06.910 回答