我当前的scrapy蜘蛛根据需要从网站中提取产品标题,但将每个 start_url 的提取内容放在单独的['product']
列表中。我希望将所有 start_url 提取放入一个列表中(对于每个相应的类类型:产品、价格等),这样我就可以在将来的提取操作中调用列表中的每个产品标题。
这是我现在的蜘蛛:
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from proj.items import projItem
class siteSpider(BaseSpider):
name = "newSpider"
allowed_domains = ["http://www.sample.url/"]
start_urls = [
"http://sample1.url",
"http://sample2.url"
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
items = []
item = FlecheNoireItem()
item ["product"] = hxs.select('//h2/a[contains(@class,"next_prev")]/text()').extract()
items.append(item)
return items