我在使用 scrapy 迭代爬网时遇到问题。我正在提取一个标题字段和一个内容字段。问题是我得到了一个 JSON 文件,其中列出了所有标题,然后是所有内容。我想得到 {title}、{content}、{title}、{content},这意味着我可能必须遍历 parse 函数。问题是我无法弄清楚我在循环什么元素(即,for x in [???]
)这是代码:
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.spiders import SitemapSpider
from Foo.items import FooItem
class FooSpider(SitemapSpider):
name = "foo"
sitemap_urls = ['http://www.foo.com/sitemap.xml']
#sitemap_rules = [
def parse(self, response):
hxs = HtmlXPathSelector(response)
items = [
item = FooItem()
item['title'] = hxs.select('//span[@class="headline"]/text()').extract()
item['content'] = hxs.select('//div[@class="articletext"]/text()').extract()
items.append(item)
return items