我正在尝试从这个Wikipedia 页面中抓取过生日的人
这是现有的代码:
hdr = {'User-Agent': 'Mozilla/5.0'}
site = "http://en.wikipedia.org/wiki/"+"january"+"_"+"1"
req = urllib2.Request(site,headers=hdr)
page = urllib2.urlopen(req)
soup = BeautifulSoup(page)
print soup
这一切都很好,我得到了整个 HTML 页面,但我想要特定的数据,我不知道如何在没有 id 的情况下使用 Beautiful Soup 访问它。<ul>
标签没有id,标签也没有<li>
。另外,我不能只要求每个<li>
标签,因为页面上还有其他列表。有没有一种特定的方式来调用给定的列表?(我不能只对这一页使用修复,因为我计划遍历所有日期并获取每一页的生日,并且我不能保证每一页的布局都与这一页完全相同)。