我正在使用 python 和 beautifulsoup 进行 html 解析。
我正在使用以下代码:
from BeautifulSoup import BeautifulSoup
import urllib2
import re
url = "http://www.wikipathways.org//index.php?query=signal+transduction+pathway&species=Homo+sapiens&title=Special%3ASearchPathways&doSearch=1&ids=&codes=&type=query"
main_url = urllib2.urlopen(url)
content = main_url.read()
soup = BeautifulSoup(content)
for a in soup.findAll('a',href=True):
print a[href]
但我没有得到像这样的输出链接:http: //www.wikipathways.org/index.php/Pathway :WP26
还有一点是有 107 条路径。但我不会得到所有链接,因为其他链接取决于页面底部的“显示链接”。
那么,如何从该网址获取所有链接(107 个链接)?