嗨,我是scrapy的新手,我正在尝试从阿里巴巴的产品类别页面中抓取类别和类别的URL 。我正在尝试将其抓取并放在 CSV 文件中。
当我在电子表格中打开它时,我想给出的视图是:-
categories categories_urls
Agricultural Growing Media its URL
Animal Products its URL
. .
. .
. .
代码:-
# -*- coding: utf-8 -*-
import scrapy
class AlibabaCatagoriesSpider(scrapy.Spider):
name = 'alibaba_catagories'
allowed_domains = ['alibaba.com']
start_urls = ['https://www.alibaba.com/Products?spm=a2700.8293689.scGlobalHomeHeader.352.2ce265aa7GOmOF']
def parse(self, response):
a = response.css('ul.sub-item-cont')
for catag in a:
item = {
'categories': catag.css('li>a::text').extract(),
'categories_url': catag.css('li>a::attr(href)').extract()
}
yield item
问题
- \n 和空白在抓取类别时被抓取。
- 数据未以理想的格式抓取
你怎么能帮忙
- 修改代码,这样我们就可以拥有
- 给出在刮擦时删除 \n 和空格的技巧
理想的格式。