我对 urllib 很熟悉,因为我在课堂上使用它来解析来自 Google 货币转换器的数据,但现在我想创建一个从 nextworth.com 网站获取价格的网络爬虫。
正如您所看到的,这并不像从一页中获取数据(就像您获取黄金价格或诸如此类的那样)那么容易,但是需要回答许多产品和许多问题才能显示最终价格。这就是它的工作方式:
1.
访问网站 ( http://www.nextworth.com )
2.
单击产品类别(例如 iPhone)http://nextworth.com/search/1/cat/iphones/
3.
点击实际产品(例如 iPhone 4 16GB ATT)http://nextworth.com/product/293814/cat/iphones/apple_iphone_4_16gb_ (black)_-_at&t/
那么你所拥有的是一系列问题,以便给你一个即时报价。因此,下一步将是
4.
开机功能齐全 - 是
5.
破裂的显示器 - 否
最后,显示价格。这就是我要抓取和存储的内容。现在我正在努力只获得完美条件物品的价格,因为它更容易,但请记住,如果第 4 步为“否”且第 5 步为“否”,或者第 4 步 - 是且第 5 步 - 是,我也想要价格,等等
所以我想我的问题是,为这个程序编写代码背后的伪代码(逻辑步骤)是什么样的?这样做是否可行,还是需要永远和大量的代码行?我是否应该先为每个类别创建几个功能,然后在其中我拥有每个产品(我觉得这将花费很长时间)。或者我应该为每个类别和嵌入式函数使用类?
编辑:我想我应该问一下 Python 是否会成为一种很好的语言,希望在 Python 中做到这一点是可行的,因为到目前为止我只知道这一点和 C++。