好的,所以我有这个 html 页面(充满了不同的 url),我想在其中获取一个 url 并打印它。
网页为:https ://bdkv2.borger.dk/foa/Sider/default.aspx?fk=22&foaid=11523251
我想打印网址 www.albertslund.dk
在源代码中看起来像这样:
<a href="http://www.albertslund.dk" id="_uscAncHomesite" target="_blank"><strong><span id="ctl00_PlaceHolderMain_FormControlHandler1__uscShowDataAuthorityDetails__uscLblHomesite">http://www.albertslund.dk</span></strong></a>
当我尝试使用它的 ID(使用 BeautifulSoup 和 Mechanize)抓取它并打印它时,它只返回一个空列表。我想使用 ID 获取 URL,因为我正在抓取一堆类似的网站,其中我想要的东西具有相同的 ID。
kommuneside = br.open(https://bdkv2.borger.dk/foa/Sider/default.aspx?fk=22&foaid=11523251)
html2 = kommuneside.read()
soup2 = BeautifulSoup(html2)
hjemmesidelink = soup2.findAll('a', attras={'ID':'_uscAncHomesite'})
print hjemmesidelink
这仅返回一个空列表:[]
如果我这样尝试:
print hjemmesidelink['href']
我得到:TypeError:列表索引必须是整数,而不是 str
我会认为这很简单,但我是一个菜鸟,它已经困扰了我好几天了。