3

我正在尝试废弃一个网站,但在运行脚本时,出现以下错误

'NotSupported:不支持的 URL 方案'':该方案没有可用的处理程序'

如果规则没有错,为什么会发生以及您的建议是什么,请帮助我。非常感谢。

代码在这里:

from scrapy.spiders import CrawlSpider, Rule, BaseSpider
from scrapy.linkextractors import LinkExtractor 
class FellowSearch(CrawlSpider):
    name ='fellow'
    allowed_domains = ['emma.cam.ac.uk']
    start_urls = [' https://www.emma.cam.ac.uk/']

    rules =(Rule(LinkExtractor(allow=(r'\?id=\d+$')),callback='parse_obj', follow=True),)

    def parse_obj(self, response):
        print response.url
4

1 回答 1

5

您需要在start_urls更改为start_urls = ['https://www.emma.cam.ac.uk/'].

于 2017-04-03T20:49:07.067 回答