python - 无法在scrapy中找出正确的循环

Question

我是新手。

这是我的蜘蛛：

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from ampa.items import AmpaItem

class AmpaSpider(CrawlSpider):
    name = "ampa"
    allowed_domains = ['website']
    start_urls = ['website/page']


rules = (Rule(SgmlLinkExtractor(allow=('associados?', ), deny=('associado/', )), callback='parse_page', follow=True),)

def parse_page(self, response):
    hxs = HtmlXPathSelector(response)
    item = AmpaItem()
    farmers = hxs.select('//div[@class="span-24 tx_left"]')
    item['nome'] = farmers.select('//div/h3[@class="titulo"]/a/text()').extract()
    item['phone'] = farmers.select('//div/span[@class="chamada"]/a[contains(text(), "Telefone")]/text()').extract() 
    item['email'] = farmers.select('//div/span[@class="chamada"]/a[contains(text(), "E-mail")]/text()').extract()
    print item.values()
    return item

这是我的管道：

class CsvWriterPipeline(object):

def __init__(self):
    self.csvwriter = csv.writer(open('items.csv', 'wb'))

def process_item(self, item, ampa):
    self.csvwriter.writerow([item['nome'], item['phone'], item['email']])   
    return item

该网站的每个页面都有一个姓名、电话和电子邮件列表。上面的代码将输出一个 csv 文件，每页包含三列和一行。在第一列中，每个单元格是该页面中所有姓名的列表，在第二列中，它们是所有电话的列表，在第三列中，它们是所有电子邮件的列表。

我真正想做的是将每个姓名、电话和电子邮件放在单独的行中。我试图通过遍历每个项目来做到这一点，但它只在每一页上打印名字、电话和电子邮件。（是不是因为每次函数蜘蛛返回一个项目时，回调将爬虫移动到下一个URL）（是吗？？？）

你会怎么做呢？

这是项目：

from scrapy.item import Item, Field

class AmpaItem(Item):
nome = Field()
phone = Field()
email = Field()

score 0 · Accepted Answer

根据您在中对复数的使用farmes，我假设页面上有很多农民。所以你的表达式很可能会返回一个农民的集合。

你能遍历农民的结果并产出每个项目吗？

#pseudocode
hxs = HtmlXPathSelector(response)
farmers = hxs.select('//div[@class="span-24 tx_left"]')
for farmer in farmer:
    item = AmpaItem()
    #be sure to select only one desired farmer here
    item['nome'] = farmers.select('//div/h3[@class="titulo"]/a/text()').extract()
    item['phone'] = farmers.select('//div/span[@class="chamada"]/a[contains(text(), "Telefone")]/text()').extract() 
    item['email'] = farmers.select('//div/span[@class="chamada"]/a[contains(text(), "E-mail")]/text()').extract()
    yield item

score 0 · Accepted Answer

我通过更改管道找到了解决方案：

import csv
import itertools

class CsvWriterPipeline(object):

def __init__(self):
    self.csvwriter = csv.writer(open('items.csv', 'wb'), delimiter=',')

def process_item(self, item, ampa):
    for i,n,k in itertools.izip(item['nome'],item['phone'],item['email']):  
        self.csvwriter.writerow([i,n,k])    
    return item

谢谢 DrColossos 和 dm03514！

这是我关于stackoverflow的第一个问题！！

python - 无法在scrapy中找出正确的循环

2 回答 2

Related

Reference