我想在网络上抓取有关各种产品和事物的评论,我该怎么做。有一家公司叫searchreviews.com,他们做的,我想知道他们是怎么做的。
问问题
1238 次
3 回答
3
他们获取页面的 HTML,然后对其进行解析,定位他们需要的任何信息。
这真的很糟糕,因为它取决于你正在抓取的网站的 DOM,它可以随时以微不足道和复杂的方式发生变化。我曾与那些(合法地)抓取各种类型的网站的公司合作过,这太可怕了。
于 2012-06-12T19:07:04.610 回答
1
mechanize 或 watir 或 rautomation 是相关的宝石,可能会在这里为您提供帮助。
于 2012-06-12T19:12:49.883 回答
0
我经常为不同的客户这样做,而且大多数时候收集评论的网站结构非常好,所以抓取并不难。以 Yelp.com 为例。我在 screen-scraper 中构建了一个例程,它在客户区域搜索邮政编码,使用过滤器来筛选所需的业务类型,并制作一个唯一结果列表(因为邮政编码搜索可能会呈现重复的结果)。从那里我可以找到每个唯一的 URL。仅使用 RegEx 和一些页面迭代就很容易解析评论。
于 2012-06-12T19:57:31.097 回答