0

我有一些基于 css 选择器提取数据的“通用”方法,这些选择器在许多网站中通常是相同的。但是,我有另一种方法可以接受给定网站的 css 选择器作为参数。

如果没有传递 title_selector 参数,我需要调用 get_title 方法。我怎样才能做到这一点?

接受 css 选择器作为参数的抓取

  def scrape(urls, item_selector, title_selector, price_selector,     image_selector)
    collection = []
    urls.each do |url|
      doc = Nokogiri::HTML(open(url).read) # Opens URL
      @items = doc.css(item_selector)[0..1].map {|item| item['href']} # Sets items
      @items.each do  |item| # Donwload each link and parse
        page = Nokogiri::HTML(open(item).read)
        collection << {
          :title   => page.css(title_selector).text, # I guess I need conditional here 
          :price  => page.css(price_selector).text
        }
      end
      @collection = collection
    end
  end

通用标题提取器

  def get_title(doc)
    if doc.at_css("meta[property='og:title']")
      title = doc.css("meta[property='og:title']")
    else doc.css('title')
      title = doc.at_css('title').text
    end
  end
4

1 回答 1

2

orpage.css通话中使用接线员。它会调用get_titleif title_selectoris falsey (nil)。

:title => page.css(title_selector || get_title(doc)).text,

不过,我不确定doc在这种情况下实际上应该是什么。

编辑

鉴于您在下面的评论,我认为您可以重构get_title以处理所有逻辑。允许get_title采用可选title_selector参数并将此行添加到方法的顶部:

return doc.css(title_selector).text if title_selector

然后,我原来的行变成:

:title => get_title(page, title_selector)
于 2016-07-12T16:36:08.957 回答