我在从网站获取数据时遇到了一些麻烦。网站源码在这里:
view-source:http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO
有这样的东西:
电影资讯
Tytuł..................................: La mer à boireOcena..................................: IMDB - 6.3 /10 (24)产品..................................................: FrancjaGatunek.................................................:戏剧Czas trwania.................................................:98 分钟。首映......................................: 22.02.2012 - ŚwiatReżyseria..................................................:雅克·马约场景.......................................: Pierre Chosson, Jacques MaillotAktorzy..................................: Daniel Auteuil, Maud Wyler , Yann Trégouët, 阿兰·贝格尔
我想从这个网站获取数据以获得一个 Python 字符串列表:
[[Tytuł, "La mer à boire"]
[Ocena, "IMDB - 6.3/10 (24)"]
[Produkcja, Francja]
[Gatunek, Dramat]
[Czas trwania, 98 min.]
[Premiera, "22.02.2012 - Świat"]
[Reżyseria, "Jacques Maillot"]
[Scenariusz, "Pierre Chosson, Jacques Maillot"]
[Aktorzy, "Daniel Auteuil, Maud Wyler, Yann Trégouët, Alain Beigel"]]
我使用 BeautifulSoup 编写了一些代码,但我不能再进一步了,我只是不知道从网站源代码中得到什么以及如何转换为字符串......请帮忙!
我的代码:
# -*- coding: utf-8 -*-
#!/usr/bin/env python
import urllib2
from bs4 import BeautifulSoup
try :
web_page = urllib2.urlopen("http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO").read()
soup = BeautifulSoup(web_page)
c = soup.find('span', {'class':'vi'}).contents
print(c)
except urllib2.HTTPError :
print("HTTPERROR!")
except urllib2.URLError :
print("URLERROR!")