2

嗨,我有一个 Facebook 页面 url 列表

eg...
http://www.facebook.com/daftpunk
http://www.facebook.com/DavidGuetta
...

最好的方法是:

  • 检查这些网址是否真的适用于 Facebook 页面而不是个人资料

  • 从这些页面收集详细信息,例如粉丝数

帮助将不胜感激。

4

4 回答 4

3

不抓取任何内容(这违反了 Facebook 的服务条款):

  1. 提取 URL 的用户名部分,即 www.facebook.com/ 之后的位
  2. 执行表单的 FQL 查询select fan_count from page where username='michaeljackson'
  3. 如果返回结果,则您知道它是主页而不是用户的个人资料。

有关可以在同一调用中检索的其他数据,请参阅页面 FQL 表

于 2010-01-21T14:06:36.597 回答
2

使用urllib2pyfacebook获取内容

使用BeautifulSouplxml解析它

使用re模块(正则表达式)提取内容以进行验证和数据收集

于 2010-01-20T21:32:17.133 回答
1

粉丝数位于“FanManager”类的标签中。您可以使用 Beautiful Soup 来获取这个标签的内容,并使用正则表达式从字符串中获取数据(例如:1,000,000 个粉丝)作为 int 或任何您想要的。

要查看该页面是否存在,请检查一些标签以查看您是否在 404 页面上。

于 2010-01-20T22:56:59.860 回答
0

您可以使用scrapyBeautifulSoup来抓取内容。

于 2010-01-20T21:27:16.130 回答