(更新代码就在下面)
我有一个类:UrlData
,它生成一个 url 列表:
for url in urls:
rawMechSiteInfo = mech.open(url) #mechanize browse each url
mech_response = mech.response()
headers = mech_response.info()
print "headers ", headers.getheader('Content-Type').encode('utf-8')
return
这一行:print "headers ", headers.getheader('Content-Type').encode('utf-8')
什么都不输出
如果我print url_data.url_list()
在我的 中做 a view
,它的投掷:
<Scan.urldata.UrlData object at 0x103e73f50>
我只是试图解析html
标记的 aa src,例如:
<div class="s">
<div>
<div class="f kv" style="white-space:nowrap">
<cite class="vurls">www.somewebsite.com/</cite>
</div>
</div>
</div>
以下正在解析整个文档:
HarvestLinks = 'h3',attrs={'class': 'r'}
或者
HarvestLinks = BSObjOfUrl.find('cite','vurls')
它似乎工作正常,但最后一个只返回一个结果并且有多个.
感谢那些迄今为止试图提供帮助的人,还有什么进一步的想法吗?