我正在抓取我的 android 应用程序所需的这个网页。我想做的是从href
属性中提取国家。这和这个是一样的。
这是我的代码:
from bs4 import BeautifulSoup
import urllib2
import re
html_page = urllib2.urlopen("http://www.howtocallabroad.com/a.html")
soup = BeautifulSoup(html_page)
li = soup.select("ul > li > a")
for link in li:
print link.get('href')
我得到的问题是结果返回所有a
标签,包括来自其他div
s
afghanistan/
albania/
algeria/
american-samoa/
andorra/
angola/
anguilla/
antigua/
argentina/
armenia/
aruba/
ascension/
australia/
austria/
azerbaijan/
codes.html # not needed
nanp.html # not needed
qa/ # not needed
forums/ # not needed
我想知道完成这个需要什么功能。我只想过滤href
s <div id="content">
。文档没有太多信息。
对不起,这是我第一次写 python。