0

我正在尝试从一个设计不佳的网页中​​提取一些文本用于一个项目,经过长时间的研究和学习 python,我接近实现它,但网页设计不佳,找不到合适的常规表达去做。

所以在这里我们有我已经完成的事情。http://coj.uci.cu/24h/status.xhtml?username=Diego1149&abb=1006从这个网页的源代码中我想得到一个已接受问题的第一个实例的整行。所以我想到了这个

exprespatFinderTitle = re.compile('<table id="submission" class="volume">.*(<tr class=.*>.*<label class="AC">.*Accepted.*</label>.*</tr>).*</table>') 

但这所做的是剪裁到最后<tr>桌子的最后一个。有人可以帮我解决这个问题吗?

我使用 Python 2.7 和 BeautifulSoup 和 urllib

4

1 回答 1

0

单独坚持 BeautitfulSoup;正则表达式不是HTML 解析的工具:

table = soup.find('table', id='submission')
accepted = table.tbody.find('label', class_='AC')
if accepted:
    row = accepted.parent.parent  # row with accepted column
于 2013-04-12T09:35:54.923 回答