所以我试图在这个页面上抓取时间表.. http://stats.swehockey.se/ScheduleAndResults/Schedule/3940
..使用此代码。
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
class SchemaSpider(BaseSpider):
name = "schema"
allowed_domains = ["http://stats.swehockey.se/"]
start_urls = [
"http://stats.swehockey.se/ScheduleAndResults/Schedule/3940"
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
rows = hxs.select('//table[@class="tblContent"]/tbody/tr')
for row in rows:
date = row.select('/td[1]/div/span/text()').extract()
teams = row.select('/td[2]/text()').extract()
print date, teams
但我无法让它工作。我究竟做错了什么?几个小时以来,我一直试图弄清楚自己,但我不知道为什么我的 XPath 不能正常工作。