python - Scrapy 递归抓取 craigslist

Question

我正在使用scrapy来废弃craigslist并获取所有链接，转到该链接，存储每个页面的描述并通过电子邮件发送回复。现在我已经编写了一个scrapy 脚本，它可以浏览craigslist/sof.com 并获取所有职位和网址。我想进入每个 url 并保存每个工作的电子邮件和描述。这是我的代码：

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from craigslist.items import CraigslistItem

class MySpider(BaseSpider):
    name = "craig"
    allowed_domains = ["craigslist.org"]
    start_urls = ["http://sfbay.craigslist.org/npo/"]
    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        titles = hxs.select("//span[@class='pl']")
        for titles in titles:
                title = titles.select("a/text()").extract()
                link = titles.select("a/@href").extract()
                desc = titles.select("a/replylink").extract
                print link, title

任何想法如何做到这一点？

score 1 · Accepted Answer

scrapy 函数应该产生（或返回）Item/s和Request/s

返回的 Item 将根据配置进行流水线化，下一步是通过返回一个 Request 并在回调字段中引用该函数来确定

来自scrapy文档：

def parse_page1(self, response):
    return Request("http://www.example.com/some_page.html",
                      callback=self.parse_page2)

def parse_page2(self, response):
    # this would log http://www.example.com/some_page.html
    self.log("Visited %s" % response.url)

score 1 · Accepted Answer

根据他们的政策，抓取 craigslist 是非法的：

禁止机器人、蜘蛛、脚本、爬虫、爬虫等

来源：https ://www.craigslist.org/about/terms.of.use

现在他们的 API 是另一个问题，但是它只会每小时更新一次（因此有 1 小时的延迟时间）。

python - Scrapy 递归抓取 craigslist

2 回答 2

Related

Reference