python - 在结果对象中搜索 - Python，BeatifulSoup

Question

我正在尝试在站点中获取一些信息，将其放入列表中并将此列表导出到 csv。这是网站的一部分，它重复了好几次。

<img src="image.jpg" alt="Aclimação">
</a>
</div>
Clique na imagem para ampliar
</div>
<div class="colInfos">
<h4>Aclimação</h4>
<div class="addressInfo">
Rua Muniz de Souza, 1110<br>
Aclimação - São Paulo - SP<br>
01534-001<br>
<br>
(11) 3208-3418 / 2639-0173<br>
<a href="mailto:aclimacao.sp@escolas.com.br">aclimacao.sp@escolas.com.br</a><br>

我想在此站点中获取每个学校的图像链接、名称（h4）、地址（在 addressInfo 中，每个 br 应该是列表中的一个单独项目）和电子邮件（a href mailto :) 并导出到 s csv 文件。这就是我正在尝试的方式。但是有一个问题，因为我不知道如何在结果对象'endereco'内部进行搜索，我该怎么做呢？这是我的代码：

import urllib2
from BeautifulSoup import BeautifulSoup


url = urllib2.urlopen("http://www.fisk.com.br/unidades?pais=1&uf=&rg=&cid=&ba=&un=")
soup = BeautifulSoup(url)
#nomes = soup.findAll('h4')

dados = []
i = 1

for endereco in enderecos:
    text = ''.join(endereco.findAll(???)) **<- how an I search the br's inside this?**
    dados[i] = text.encode('utf-8').strip()
    i = i +     

enderecos = soup.findAll('div', attrs={'class': 'colInfos'})

score 0 · Accepted Answer

它真的很好用。你所要做的就是更换

dados = []
i = 1

for endereco in enderecos:
    text = ''.join(endereco.findAll(text=True))
    dados[i] = text.encode('utf-8').strip()
    i = i +     

enderecos = soup.findAll('div', attrs={'class': 'colInfos'})

和

dados = []

enderecos = soup.findAll('div', attrs={'class': 'colInfos'})

for endereco in enderecos:
    text = ''.join(endereco.findAll(text=True))
    dados.append(text.encode('utf-8').strip())
print dados

python - 在结果对象中搜索 - Python，BeatifulSoup

1 回答 1

Related

Reference