-1

是否可以使用 ruby​​ 中的 anemone 和 nokogiri 库从电子商务网站上抓取产品?

我了解如何使用 nokogiri 从每个产品页面提取我需要的数据,但我不知道如何让 anemone/nokogiri 抓取网站并抓取所有产品页面。

非常感谢朝着正确的方向推进

4

1 回答 1

0

我弄清楚了我的问题。首先是海葵似乎没有爬过所有的页面。这是因为我想要的页面位于一个子域下,我必须告诉 anemone 与主域分开爬行。其次是我需要一种方法来确定哪些页面实际上是产品页面(因此需要被解析)。我通过解析我想要的字段之一(sku 编号)然后使用 RegEX 测试它是否是一个 sku 来做到这一点。

于 2012-05-21T06:26:01.397 回答