我正在尝试使用 R 从一些博客中获取一些信息。我想获取的数据是:
1) Date posted
2) Blog Post Title
3) Number of Comments
4) Number of Facebook likes.
此处的此博客包含我要收集的所有字段。
理想情况下,我想要一个如下所示的数据框:
Post_Date CommentCount FB_Likes Title
2012-12-05 1 629 The James and Claudia Kripalu Workshop– The Daily Practice: Finding Success From Within
... ... ... ...
有没有办法在 R 中做到这一点?这似乎是可行的,RCurl
但我不太熟悉html/xml/js/etc
。
到目前为止,这就是我所拥有的:
library(RCurl)
library(XML)
xmlTreeParse(getURI("http://www.jamesaltucher.com"))
当我运行它时,我得到左括号和右括号不匹配的错误。
注意:这些不是我的博客,所以我没有对博客或他们的 FB 帐户的管理员访问权限。