这是我的总体思路:在多个销售网站(例如 ebay)中搜索,以找到上个月 ipad 2 的平均价格。
我只想要一些方向来做这样的事情。语言可以是PHP或Python,可以使用开源项目。
问题是这样的系统至少需要一些自定义参数,例如日期间隔和对象名称。
那么我需要为每个网站定制一个爬虫吗?
如何将价值与产品联系起来?
这些销售网站可能会遇到什么样的问题?
好吧,我真的需要一些关于做类似事情的正确方法的建议。
这是我的总体思路:在多个销售网站(例如 ebay)中搜索,以找到上个月 ipad 2 的平均价格。
我只想要一些方向来做这样的事情。语言可以是PHP或Python,可以使用开源项目。
问题是这样的系统至少需要一些自定义参数,例如日期间隔和对象名称。
那么我需要为每个网站定制一个爬虫吗?
如何将价值与产品联系起来?
这些销售网站可能会遇到什么样的问题?
好吧,我真的需要一些关于做类似事情的正确方法的建议。
所以可能我需要为每个网站定制一个爬虫?
不,您需要为每个网站定制它的某些方面,但底层引擎将保持不变。而且您只需要一些信息,因此您必须对其进行自定义才能获得这些信息。
如何将价值与产品联系起来?
你只是抓取了这些数据,由你来管理它的这方面。但是,如果您正在抓取产品 X,那么您会保留该产品的价格列表,并(例如)对该列表的内容进行平均以获得平均价格。如何将该列表与产品关联取决于您的底层数据库实现。
我可以对这些销售网站有一些问题吗?
是的,当然,如果站点发生变化,那么您的抓取工具可能会停止工作。这就是为什么最好始终使用 API 的原因,因为这样您就不必依赖页面结构不变来获取您的内容。
好吧,我真的需要一些关于做类似事情的正确方法的建议。
使用 API 优先于通过 HTML 进行挑选。使用现有工具,而不是重新发明轮子。 http://wwwsearch.sourceforge.net/mechanize/