例如,这是我的字符串:
myString = "<html><body><p>Hello World!</p><p>Hello Dennis!</p></body></html>"
我想要实现的是:
myList = ['Hello World!','Hello Dennis!']
使用正则表达式或其他方法,我如何过滤掉段落文本,myString
同时忽略 html 标签来实现myList
?
我努力了:
import re
a="<body><p>Hello world!</p><p>Hello Denniss!</p></body>"
result=re.search('<p>(.*)</p>', a)
print result.group(1)
结果是:Hello world!</p><p>Hello Denniss!
当我尝试时,(.*)(.*)
我得到了Hello World!
这个字符串只是一个例子。该字符串也可能<garbage>abcdefghijk<gar<bage>
取决于 Web 开发人员如何对网站进行编码。
这可能是一个复杂的正则表达式,但我需要学习这一点,因为这是我将在今年晚些时候参加的网络安全竞赛,我认为我最好的选择是开发一种在 a>
和 a之间搜索文本的算法<
。
我该怎么办?
抱歉,如果我的问题格式不正确,我有一些学习问题。