python - 使用来自同一 URL 的多个 POST 数据进行抓取

Question

我已经创建了一个蜘蛛，它收集具有匹配电话号码的公司名称列表。然后将其保存到 CSV 文件中。

然后我想使用 CSV 文件中的电话号码作为 POST 数据从另一个站点抓取数据。我希望它循环通过相同的起始 URL，但只是抓取每个电话号码产生的数据，直到 CSV 文件中没有更多号码。

这是我到目前为止所得到的：

from scrapy.spider import BaseSpider
from scrapy.http import Request
from scrapy.http import FormRequest
from scrapy.selector import HtmlXPathSelector
from scrapy import log
import sys
from scrapy.shell import inspect_response
from btw.items import BtwItem
import csv

class BtwSpider(BaseSpider):
    name = "btw"
    allowed_domains = ["siteToScrape.com"]
    start_urls = ["http://www.siteToScrape.com/broadband/broadband_checker"] 

    def parse(self, response):
        phoneNumbers = ['01253873647','01253776535','01142726749']

        return [FormRequest.from_response(response,formdata={'broadband_checker[phone]': phoneNumbers[1]},callback=self.after_post)]


    def after_post(self, response):
       hxs = HtmlXPathSelector(response)
       sites = hxs.select('//div[@id="results"]')
       items = []
       for site in sites:
           item = BtwItem()

           fttcText = site.select("div[@class='content']/div[@id='btfttc']/ul/li/text()").extract()

           # Now we will change the text to be a boolean value
           if fttcText[0].count('not') > 0:
               fttcEnabled=0
           else:
               fttcEnabled=1

           item['fttcAvailable'] = fttcEnabled
           items.append(item)
       return items

目前我只是试图通过一个列表（phoneNumbers）来循环，但到目前为止我什至还没有设法让它工作。一旦我知道该怎么做，我就可以自己从 CSV 文件中提取它。在其当前状态下，它只是使用列表中索引为 1 的电话号码。

score 2 · Accepted Answer

假设您有一个phones.csv包含电话的文件：

01253873647
01253776535
01142726749

这是你的蜘蛛：

import csv
from scrapy.item import Item, Field

from scrapy.spider import BaseSpider
from scrapy.http import Request
from scrapy.http import FormRequest
from scrapy.selector import HtmlXPathSelector


class BtwItem(Item):
    fttcAvailable = Field()
    phoneNumber = Field()


class BtwSpider(BaseSpider):
    name = "btw"
    allowed_domains = ["samknows.com"]

    def start_requests(self):
        yield Request("http://www.samknows.com/broadband/broadband_checker", self.parse_main_page)

    def parse_main_page(self, response):
        with open('phones.csv', 'r') as f:
            reader = csv.reader(f)
            for row in reader:
                phone_number = row[0]
                yield FormRequest.from_response(response,
                                                formdata={'broadband_checker[phone]': phone_number},
                                                callback=self.after_post,
                                                meta={'phone_number': phone_number})

    def after_post(self, response):
        hxs = HtmlXPathSelector(response)
        sites = hxs.select('//div[@id="results"]')

        phone_number = response.meta['phone_number']
        for site in sites:
            item = BtwItem()

            fttc = site.select("div[@class='content']/div[@id='btfttc']/ul/li/text()").extract()
            item['phoneNumber'] = phone_number
            item['fttcAvailable'] = 'not' in fttc[0]

            yield item

以下是运行后抓取的内容：

{'fttcAvailable': False, 'phoneNumber': '01253873647'}
{'fttcAvailable': False, 'phoneNumber': '01253776535'}
{'fttcAvailable': True, 'phoneNumber': '01142726749'}

想法是使用抓取主页start_requests，然后在回调中逐行读取 csv 文件，并为每个电话号码（csv 行）读取yield新文件。Requests此外，通过字典传递phone_number给回调meta以将其写入该Item字段（我认为您需要它来区分项目/结果）。

希望有帮助。

python - 使用来自同一 URL 的多个 POST 数据进行抓取

1 回答 1

Related

Reference