0

需要将现有应用程序连接到社交媒体监控。爬虫的常见输出格式是什么。会是 XML、JSON 格式吗?还是它会根据爬虫而有所不同,例如:Python、Java?

4

1 回答 1

1

它会有所不同,另外,您可能不想要一个输出“文件”,因为该站点可能很大。

我用 ruby​​ 编写了一个名为 cobweb (http://github.com/stewartmckee/cobweb) 的爬虫,它使用哈希作为其数据模型。收到每一页后,您都会看到散列,以执行您希望执行的任何操作。

出于兴趣,您希望从爬网中获得什么信息?只是想一个相对简单的添加是为蜘蛛网创建一个 web api,你可以使用吗?

于 2012-08-21T18:16:58.270 回答