我正在尝试用 Python 编写一个基本的网络爬虫。我遇到的麻烦是解析页面以提取 url。我都尝试过 BeautifulSoup 和正则表达式,但是我无法获得有效的解决方案。
例如:我正在尝试提取 Facebook 的 Github 页面中的所有成员网址。(https://github.com/facebook?tab=members)。我编写的代码提取了成员 URL;
def getMembers(url):
text = urllib2.urlopen(url).read();
soup = BeautifulSoup(text);
memberList = []
#Retrieve every user from the company
#url = "https://github.com/facebook?tab=members"
data = soup.findAll('ul',attrs={'class':'members-list'});
for div in data:
links = div.findAll('li')
for link in links:
memberList.append("https://github.com" + str(link.a['href']))
return memberList
然而,这需要相当长的时间来解析,我想知道我是否可以更有效地做到这一点,因为爬行过程太长了。