问问题
5738 次
4 回答
9
是的,我会推荐BeautifulSoup
如果你得到标题,它很简单:
soup = BeautifulSoup(html)
myTitle = soup.html.head.title
或者
myTitle = soup('title')
取自文档
它非常健壮,无论它多么混乱,它都会解析 html。
于 2009-11-02T09:55:11.267 回答
5
尝试美丽的汤:
url = 'http://www.example.com'
response = urllib2.urlopen(url)
html = response.read()
soup = BeautifulSoup(html)
title = soup.html.head.title
print title.contents
于 2009-11-02T09:55:06.360 回答
0
使用美丽的汤。
html = urllib2.urlopen("...").read()
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(html)
print soup.title.string
于 2009-11-02T09:54:09.690 回答
0
你们为什么要为一项任务导入整个额外的库。没有正则表达式?不是第三方的 urllib 请求不是 bs4 或 mech 吗?与标准库有关,解析 html 并匹配字符串,然后'>'
'<'
用 re 或 whateves 拆分。
N=(len(html))
for a in html(N):
if '<title>' in a:
Title=(str(a))
这就是python 2,我认为,你可以剥离它
于 2014-12-01T13:58:17.213 回答