我现在开始使用 Scrapy,我知道如何从运动页面(足球运动员的姓名和球队)获取我想要的内容,但我需要按照链接搜索更多球队,每个球队页面都有一个链接到玩家页面,网站链接的结构是:
球队页面:http ://esporte.uol.com.br/futebol/clubes/vitoria/ 球员页面:http ://esporte.uol.com.br/futebol/clubes/vitoria/jogadores/
我已经阅读了一些 Scrapy 教程,我在想团队页面我必须关注链接并且不解析任何内容,而玩家页面我必须不关注并解析玩家,我不知道我是否'我对这个想法和语法错误,如果我的跟随想法是错误的,欢迎任何帮助。
这是我的代码:
class MoneyballSpider(BaseSpider):
name = "moneyball"
allowed_domains = ["esporte.uol.com.br", "click.uol.com.br", "uol.com.br"]
start_urls = ["http://esporte.uol.com.br/futebol/clubes/vitoria/jogadores/"]
rules = (
Rule(SgmlLinkExtractor(allow=(r'.*futebol/clubes/.*/', ), deny=(r'.*futebol/clubes/.*/jogadores/', )), follow = True),
Rule(SgmlLinkExtractor(allow=(r'.*futebol/clubes/.*/jogadores/', )), callback='parse', follow = True),
)
def parse(self, response):
hxs = HtmlXPathSelector(response)
jogadores = hxs.select('//div[@id="jogadores"]/div/ul/li')
items = []
for jogador in jogadores:
item = JogadorItem()
item['nome'] = jogador.select('h5/a/text()').extract()
item['time'] = hxs.select('//div[@class="header clube"]/h1/a/text()').extract()
items.append(item)
print item['nome'], item['time']
return items