0

我正在尝试在站点中获取一些信息,将其放入列表中并将此列表导出到 csv。这是网站的一部分,它重复了好几次。

<img src="image.jpg" alt="Aclimação">
</a>
</div>
Clique na imagem para ampliar
</div>
<div class="colInfos">
<h4>Aclimação</h4>
<div class="addressInfo">
Rua Muniz de Souza, 1110<br>
Aclimação - São Paulo - SP<br>
01534-001<br>
<br>
(11) 3208-3418 / 2639-0173<br>
<a href="mailto:aclimacao.sp@escolas.com.br">aclimacao.sp@escolas.com.br</a><br>

我想在此站点中获取每个学校的图像链接、名称(h4)、地址(在 addressInfo 中,每个 br 应该是列表中的一个单独项目)和电子邮件(a href mailto :) 并导出到 s csv 文件。这就是我正在尝试的方式。但是有一个问题,因为我不知道如何在结果对象'endereco'内部进行搜索,我该怎么做呢?这是我的代码:

import urllib2
from BeautifulSoup import BeautifulSoup


url = urllib2.urlopen("http://www.fisk.com.br/unidades?pais=1&uf=&rg=&cid=&ba=&un=")
soup = BeautifulSoup(url)
#nomes = soup.findAll('h4')

dados = []
i = 1

for endereco in enderecos:
    text = ''.join(endereco.findAll(???)) **<- how an I search the br's inside this?**
    dados[i] = text.encode('utf-8').strip()
    i = i +     

enderecos = soup.findAll('div', attrs={'class': 'colInfos'})
4

1 回答 1

0

它真的很好用。你所要做的就是更换

dados = []
i = 1

for endereco in enderecos:
    text = ''.join(endereco.findAll(text=True))
    dados[i] = text.encode('utf-8').strip()
    i = i +     

enderecos = soup.findAll('div', attrs={'class': 'colInfos'})

dados = []

enderecos = soup.findAll('div', attrs={'class': 'colInfos'})

for endereco in enderecos:
    text = ''.join(endereco.findAll(text=True))
    dados.append(text.encode('utf-8').strip())
print dados
于 2013-10-31T01:20:55.507 回答