0

在exam.com 上与天气无关:

Tokyo: 25°C

我想使用Django 1.1lxml在网站上获取信息。我只想获取“25”的信息。

HTMLexam.com 结构如下:

<p id="resultWeather">
    <b>Weather</b>
    Tokyo:
    <b>25</b>°C
</p>

我是学生。我正在和我的朋友们做一个小项目。请解释给我容易理解。非常感谢你!

4

1 回答 1

4

BeautifulSoup 比 lxml 更适合 html 解析。

这样的事情可能会有所帮助:

def get_weather():
    import urllib
    from BeautifulSoup import BeautifulSoup
    data = urllib.urlopen('http://exam.com/').read()
    soup = BeautifulSoup(data)
    return soup.find('p', {'id': 'resultWeather'}).findAll('b')[-1].string

用 urllib 获取页面内容,用 BeautifulSoup 解析,找到 id=resultWeather 的 P,在我们的 P 中找到最后一个 B 并获取它的内容

于 2009-10-30T08:03:29.380 回答