我想获取此页面第一列中所有元素的链接(http://en.wikipedia.org/wiki/List_of_school_districts_in_Alabama)。
我很喜欢使用 BeautifulSoup,但它似乎不太适合这项任务(我一直在尝试访问每个 tr 内容的第一个孩子,但效果并不好)。
xpath 遵循常规模式,在以下表达式中为每个新行更新行号:
xpath = '//*[@id="mw-content-text"]/table[1]/tbody/tr[' + str(counter) + ']/td[1]/a'
有人会通过发布一种遍历行来获取链接的方法来帮助我吗?
我在想一些事情:
urls = []
while counter < 100:
urls.append(get the xpath('//*[@id="mw-content-text"]/table[1]/tbody/tr[' + str(counter) + ']/td[1]/a'))
counter += 1
谢谢!