Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
需要将现有应用程序连接到社交媒体监控。爬虫的常见输出格式是什么。会是 XML、JSON 格式吗?还是它会根据爬虫而有所不同,例如:Python、Java?
它会有所不同,另外,您可能不想要一个输出“文件”,因为该站点可能很大。
我用 ruby 编写了一个名为 cobweb (http://github.com/stewartmckee/cobweb) 的爬虫,它使用哈希作为其数据模型。收到每一页后,您都会看到散列,以执行您希望执行的任何操作。
出于兴趣,您希望从爬网中获得什么信息?只是想一个相对简单的添加是为蜘蛛网创建一个 web api,你可以使用吗?