其他网络抓取解决方案似乎都不适用于我从 Drupal 视图生成的表中抓取数据的任务。虽然显示的页面源肯定有一个显示当前代码的表,但我尝试使用的只是返回一个空表,而不是 15 行显示的表格信息的列表。
我显然做错了什么,并且是 R 编码技能中级的新手。任何帮助将不胜感激!
我的 R 代码:
library("RCurl")
library("XML")
projects <- getURL("http://www.mysite.com/projects", userpwd ="username:password")
# parse the document for R representation:
projects.doc <- htmlParse(projects)
# get the table
projects.tabs <- readHTMLTable(projects.doc, stringsAsFactors = FALSE)