例如我有一个站点"www.example.com"
实际上我想通过保存到本地系统来抓取该站点的 html。所以为了测试我将该页面保存在我的桌面上example.html
现在我已经为此编写了蜘蛛代码,如下所示
class ExampleSpider(BaseSpider):
name = "example"
start_urls = ["example.html"]
def parse(self, response):
print response
hxs = HtmlXPathSelector(response)
但是当我运行上面的代码时,我收到如下错误
ValueError: Missing scheme in request url: example.html
最后,我的意图是抓取example.html
包含www.example.com
保存在本地系统中的 html 代码的文件
任何人都可以建议我如何在 start_urls 中分配 example.html 文件
提前致谢