我正在使用 ScrapingHub API,并且正在使用 shub 来部署我的项目。但是,项目结果如下所示:
不幸的是,我按以下顺序需要它——> 标题、发布日期、描述、链接。我怎样才能让每个项目类的输出完全按照这个顺序排列?
下面是我的蜘蛛的一个简短示例:
import scrapy
from scrapy.spiders import XMLFeedSpider
from tickers.items import tickersItem
class Spider(XMLFeedSpider):
name = "Scraper"
allowed_domains = ["yahoo.com"]
start_urls = ('https://feeds.finance.yahoo.com/rss/2.0/headline?s=ABIO,ACFN,AEMD,AEZS,AITB,AJX,AU,AKERMN,AUPH,AVL,AXPW
'https://feeds.finance.yahoo.com/rss/2.0/headline?s=DRIO
'https://feeds.finance.yahoo.com/rss/2.0/headline?s=IDXG,IMMU,IMRN,IMUC,INNV,INVT,IPCI,INPX,JAGX,KDMN,KTOV,LQMT
)
itertag = 'item'
def parse_node(self, response, node):
item = {}
item['Title'] = node.xpath('title/text()',).extract_first()
item['Description'] = node.xpath('description/text()').extract_first()
item['Link'] = node.xpath('link/text()').extract_first()
item['PublishDate'] = node.xpath('pubDate/text()').extract_first()
return item
另外,这是我附加的 items.py 文件,它与我的蜘蛛的顺序相同,所以我不知道为什么输出不按顺序。
项目.py:
import scrapy
class tickersItem(scrapy.Item):
Title = scrapy.Field()
Description = scrapy.Field()
Link = scrapy.Field()
PublishDate = scrapy.Field()
我的代码的语法是为了项目和蜘蛛文件,我不知道如何修复它。我是一个新的python程序员。