在exam.com 上与天气无关:
Tokyo: 25°C
我想使用Django 1.1和lxml在网站上获取信息。我只想获取“25”的信息。
HTMLexam.com 结构如下:
<p id="resultWeather">
<b>Weather</b>
Tokyo:
<b>25</b>°C
</p>
我是学生。我正在和我的朋友们做一个小项目。请解释给我容易理解。非常感谢你!
BeautifulSoup 比 lxml 更适合 html 解析。
这样的事情可能会有所帮助:
def get_weather():
import urllib
from BeautifulSoup import BeautifulSoup
data = urllib.urlopen('http://exam.com/').read()
soup = BeautifulSoup(data)
return soup.find('p', {'id': 'resultWeather'}).findAll('b')[-1].string
用 urllib 获取页面内容,用 BeautifulSoup 解析,找到 id=resultWeather 的 P,在我们的 P 中找到最后一个 B 并获取它的内容