场景:包含多个项目的页面,每个项目由标题、描述、图像组成。当其中一项缺少标题时会发生什么?scrapy 是如何处理的?看来scrapy盲目选择所有标题 //div[id='content']/ul/li/div[id='title']/text(),
预期的输出是该行将缺少标题。但我担心,因为它在不考虑项目上下文的情况下盲目地选择页面上的所有标题。如果第 5 项缺少标题,会不会误用第 6 项的标题?
title1 | description | image
.
.
title4 | description | image
title6 | description | image <--- it's supposed to be missing the title.
| description | image
scrapy有办法解决这个问题吗?
我想的一种解决方法是查看父项元素,然后查看该项的内部。如果缺少某些东西,请不要显示它。