Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
是否可以使用 ruby 中的 anemone 和 nokogiri 库从电子商务网站上抓取产品?
我了解如何使用 nokogiri 从每个产品页面提取我需要的数据,但我不知道如何让 anemone/nokogiri 抓取网站并抓取所有产品页面。
非常感谢朝着正确的方向推进
我弄清楚了我的问题。首先是海葵似乎没有爬过所有的页面。这是因为我想要的页面位于一个子域下,我必须告诉 anemone 与主域分开爬行。其次是我需要一种方法来确定哪些页面实际上是产品页面(因此需要被解析)。我通过解析我想要的字段之一(sku 编号)然后使用 RegEX 测试它是否是一个 sku 来做到这一点。