我开始研究用于解析 HTML 的 beautifulsoup。
例如对于网站“ http://en.wikipedia.org/wiki/PLCB1 ”
import sys
sys.setrecursionlimit(10000)
import urllib2, sys
from BeautifulSoup import BeautifulSoup
site= "http://en.wikipedia.org/wiki/PLCB1"
hdr = {'User-Agent': 'Mozilla/5.0'}
req = urllib2.Request(site,headers=hdr)
page = urllib2.urlopen(req)
soup = BeautifulSoup(page)
table = soup.find('table', {'class':'infobox'})
#print table
rows = table.findAll("th")
for x in rows:
print "x - ", x.string
在某些有 url 的情况下,我得到的输出为 None。为什么会这样?
输出 :
x - Phospholipase C, beta 1 (phosphoinositide-specific)
x - Identifiers
x - None
x - External IDs
x - None
x - None
x - Molecular function
x - Cellular component
x - Biological process
x - RNA expression pattern
x - Orthologs
x - Species
x - None
x - None
x - None
x - RefSeq (mRNA)
x - RefSeq (protein)
x - Location (UCSC)
x - None
例如,在 Location 之后,还有一个包含“pubmed search”但显示为 None。我想知道为什么会这样。
第二:有没有办法在字典中获取 th和
相应的 td 以便于解析?