0

我是网络抓取的新手,到目前为止我所做的只是一些基本的 python 抓取。我真正想要的是让我在 facebook 上的所有在线朋友都被抓取,只是为了看看如何抓取动态变化的东西。所以请告诉我是否有可能,从哪里开始等等。谢谢!

4

1 回答 1

0

抓取动态内容背后的基本思想是包含内容的页面将在后台向某些资源发出请求。您需要找出这些请求是什么,然后复制它们,并解析响应。通常,解析方面会比普通抓取更容易,因为响应将采用更加结构化的格式,例如 JSON 而不是 HTML。查找正在调用的资源的一种简单方法是使用浏览器中的开发人员工具。在 Chrome 中,按 F12 并在 Facebook 上检查“XHR”选项卡。您应该会看到对https://www.facebook.com/ajax/chat/buddy_list.php的定期请求. 查看正在发布的数据,以及响应是什么。您将不得不模仿这些请求(包括发送显示您已登录的有效 cookie),然后解析响应。

于 2013-08-02T12:32:00.827 回答