我想解析站点地图并从站点地图中找出所有网址,然后在所有网址上附加一些单词,然后我想检查所有修改后的网址的响应代码。
对于这项任务,我决定使用scrapy,因为它可以抓取站点地图。它在 Scarpy 的文档中给出
在本文档的帮助下,我创建了我的蜘蛛。但我想在发送获取之前更改网址。所以为此我试图从这个链接中寻求帮助。此链接建议我使用rules
和实施process_requests()
. 但我无法利用这些。我有点厌倦了我的评论。任何人都可以帮我为注释行编写确切的代码或在scrapy中执行此任务的任何其他方式吗?
from scrapy.contrib.spiders import SitemapSpider
class MySpider(SitemapSpider):
sitemap_urls = ['http://www.example.com/sitemap.xml']
#sitemap_rules = [some_rules, process_request='process_request')]
#def process_request(self, request, spider):
# modified_url=orginal_url_from_sitemap + 'myword'
# return request.replace(url = modified_url)
def parse(self, response):
print response.status, response.url