我创建了一个类扩展的 SGMLParser:
class URLLister(SGMLParser):
def __init__(self):
SGMLParser.__init__(self)
def start_title(self, attrs):
pass
def handle_data(self, data):
print data
非常非常简单的代码。IMOstart_title
在遇到<title>
标签handle_data
时被调用,在遇到普通文本时被调用。现在我想提取 and 之间的文本<title>
,</title>
例如
<html><head><title>Webpage title</title></head><body>Simple text</body></html>
我想打印Webpage title
between<title>
标签,但使用handle_data
标签我将输出所有简单的文本,包括Webpage title
and Simple text
。如何简单地输出<title>
标签之间的文本?