2

我需要爬取特定的网站以挖掘出一些相关信息。看起来首先我必须搜索该站点以获取相应的 URL,当被抓取时会给我详细的信息。

假设,搜索 url 是

example.com/city1/search.html?cat=category1&locality=location1&page=1

这意味着,位置和页面可以有city2、city3等。category可以是category2、category3等。

我收集了所有可以递增的城市、类别、位置和页面,直到结果不为空。

得到所有 URL 后,我将不得不从每个 URL 中挖掘出详细信息。我已经看到某些必要的信息作为 javascript 的一部分提供。

现在,我已经看到了 node.io、jsdom 和 phantomjs。我也看过yql。由于我是新手,请根据您的经验建议我,在这种情况下哪个是理想的。

如果你能举出一些例子,那就太棒了。

4

1 回答 1

0

PhantomJS 可以在您提供的 URL 中运行 javascript,如果 URL 包含 javascript/ajax 内容,则非常有用。虽然 YQL 并没有在网站上运行 javascript/ajax,但它很快就能搞定

于 2013-01-25T15:36:32.450 回答