1

这是我的总体思路:在多个销售网站(例如 ebay)中搜索,以找到上个月 ipad 2 的平均价格。

我只想要一些方向来做这样的事情。语言可以是PHP或Python,可以使用开源项目。

问题是这样的系统至少需要一些自定义参数,例如日期间隔和对象名称。

那么我需要为每个网站定制一个爬虫吗?

如何将价值与产品联系起来?

这些销售网站可能会遇到什么样的问题?

好吧,我真的需要一些关于做类似事情的正确方法的建议。

4

1 回答 1

1

所以可能我需要为每个网站定制一个爬虫?

不,您需要为每个网站定制它的某些方面,但底层引擎将保持不变。而且您只需要一些信息,因此您必须对其进行自定义才能获得这些信息。

如何将价值与产品联系起来?

你只是抓取了这些数据,由你来管理它的这方面。但是,如果您正在抓取产品 X,那么您会保留该产品的价格列表,并(例如)对该列表的内容进行平均以获得平均价格。如何将该列表与产品关联取决于您的底层数据库实现。

我可以对这些销售网站有一些问题吗?

是的,当然,如果站点发生变化,那么您的抓取工具可能会停止工作。这就是为什么最好始终使用 API 的原因,因为这样您就不必依赖页面结构不变来获取您的内容。

好吧,我真的需要一些关于做类似事情的正确方法的建议。

使用 API 优先于通过 HTML 进行挑选。使用现有工具,而不是重新发明轮子。 http://wwwsearch.sourceforge.net/mechanize/

http://scrapy.org/

http://seleniumhq.org/

用于 Python 的 Amazon API 库?

于 2013-01-02T10:40:42.760 回答