我有一个从 ESPN NCAA 网站提取标题的代码。但我想刮掉整个网页。我是编码新手,如果您能帮助抓取网页,我将不胜感激。我发现很难理解 XML 标记并识别它们。请你们中的任何人修改此代码,以便打印此网页上的全部或大部分内容吗?谢谢!
from urllib import urlopen
from BeautifulSoup import BeautifulSoup
import smtplib
site = urlopen('http://espn.go.com/college-football').read()
soup = BeautifulSoup(site)
for i in soup.findAll('ul', {'class': 'headlines'}):
for tag in i.findAll('li'):
for a in tag.findAll({'a' : True, 'title' : False}):
print a.text
print a['href']
print "\n"