我正在尝试为另一个脚本编写一个小函数,该脚本从“ http://subfusion.net/cgi-bin/quote.pl?quote=humorists&number=1 ”中提取生成的文本
基本上,我需要它来提取任何句子在 <br> 标签之间。
我一直在尝试使用正则表达式,但我从来没有真正掌握这些方法。
我所做的所有搜索都找到了提取特定句子或单个单词的东西。
然而,这需要拉出 <br> 标签之间的任意字符串。
谁能帮我吗?谢谢。
我能想到的最好的:
html = urlopen("http://subfusion.net/cgi-bin/quote.pl?quote=humorists&number=1").read()
output = re.findall('\<br>.*\<br>', html)
编辑:最终采用了一种不同的方法,只需将 HTML 拆分为由 <br> 分隔的列表并拉出 [3],以实现更简洁的代码和更少的字符串操作。保留这个问题以供将来参考和其他有类似问题的人参考。