我有这段代码,它使用 BeatifulSoup 从网站上抓取内容。
short_description = soup.find('div', attrs={"class":"short-description"})
if short_description:
short_desc = short_description.find('div', attrs={"class": "std"})
if short_desc:
adm_product.append(short_desc.renderContents())
long_description = soup.find('div', attrs={"class": "box-collateral box-description"})
if long_description:
long_desc = long_description.find('div', attrs={"class": "std"})
if long_desc:
adm_product.append(long_desc.renderContents())
L = []
for tag in long_desc.recursiveChildGenerator():
if isinstance(tag,BeautifulSoup.Tag):
L.append(tag.renderContents())
desc = " ".join(v for v in L if v > 0)
print desc
adm_product.append(desc)
else:
adm_product.append('pas du description')
# we get the country and producer
for txt in product_shop.findAll(text=True):
if re.search('Origine',txt,re.I):
origin = txt.next.strip()
try:
country, producer = origin.split(', ')
except Exception, e:
pass
else:
adm_product.append(country)
adm_product.append(producer)
HTML 示例输入:
<div class="short-description">
<div class="std">Barre chocolat au lait fourrée à la crème de lait<br>25g, bio et équitable<br>Produit bio contrôlé par Bio Inspecta</div>
</div>
<div class="box-collateral box-description">
<h2>Description du produit</h2>
<div class="std">
<div><strong>CHOKICHOC : la barre de chocolat au lait, fourrée à la crème de lait</strong></div><br>
<div style="text-align: justify;">Exquis mélange des plus fins cacaos et de l’aromatique sucre bio du Paraguay, CHOKICHOC est composée exclusivement de matières premières cultivées sans additif ni arôme artificiel. Tous les ingrédients proviennent de cultures biologiques. <strong>Légère, fondante, idéale pour le goûter, un vrai délice!</strong></div><br>
<div>La commercialisation des barres CHOKICHOC garantit un prix minimum pour le producteur, des contrats d’achats à long terme ainsi que le préfinancement partiel de la récolte.</div> </div>
</div>
<div class="product_shop">
<p>
<label class="garanties_adm">
<strong>Les garanties :</strong></label>
<img src="/images/adm/icon-garantie-fairtrade-ab.png">
</p>
<p>
<label><strong>Origine :</strong></label>
Burkina Faso, Cercle des Sécheurs </p>
<p> </p>
</div>
当我打印 adm_product 列表时,我得到:
['002267', 'Barre chocolat au lait fourr\xc3\xa9e \xc3\xa0 la
cr\xc3\xa8me de lait<br />25g, bio et \xc3\xa9quitable<br />Produit
bio contr\xc3\xb4l\xc3\xa9 par Bio Inspecta', '<strong>CHOKICHOC : la
barre de chocolat au lait, fourrée à la crème de
lait</strong> CHOKICHOC : la barre de chocolat au lait, fourrée
à la crème de lait Exquis mélange des plus fins
cacaos et de l’aromatique sucre bio du Paraguay, CHOKICHOC est
composée exclusivement de matières premières
cultivées sans additif ni arôme artificiel. Tous les
ingrédients proviennent de cultures biologiques.
<strong>Légère, fondante, idéale pour le
goûter, un vrai délice!</strong> Légère,
fondante, idéale pour le goûter, un vrai délice!
La commercialisation des barres CHOKICHOC garantit un prix minimum
pour le producteur, des contrats d’achats à long terme
ainsi que le préfinancement partiel de la récolte.',
'0,90\xc2\xa0',
u'/product/cache/1/image/9df78eab33525d08d6e5fb8d27136e95/0/0/002267_2.jpg',
u'Burkina Faso', u'Cercle des S\xe9cheurs']
我的列表item[1]
编码正确,但item[2]
不是;最后两项也不是。
我错过了什么?