我正在尝试从另一个网页获取大学及其网站的列表。
我已经得到输入以显示我想要的每一行的 HTML,但我正在尝试进一步格式化文本。我只希望显示大学名称和指向该大学的链接。有任何想法吗?
这是我的代码:
url = "http://www.arizona.edu/colleges"
page = urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
universities = soup.findAll('span', {'class' : 'field-content'})
for eachuniversity in universities:
print eachuniversity
这是我得到的一个例子eachuniversity
:
<div class="views-field-title">
<span class="field-content">
<a href="/colleges/college-agriculture-life-sciences">
<h3>College of Agriculture & Life Sciences</h3>
</a>
</span>
</div>