我正在尝试使用rvest
包来抓取网站。
此链接将用作示例:https ://www.globalinnovationindex.org/analysis-indicator
目标是从所有年份 (select id="ctl29_lstYear") 和所有索引 (select id="ctl29_lstIndex") 中抓取表格。我已经有一个块可以抓取和格式化这些表格并将它们变成列表(是的......它们不是 html <table>
),但我不能使用follow_link()
或set_values()
浏览年份和索引的选项,并将它们全部抓取.
让我们在这个例子中使用一对“选项”(year="2013" and index="Innovation Efficiency Ratio"):
所以,我查看了rvest::set_values()
文档,发现了这个例子:
search <- html_form(read_html("http://www.google.com"))[[1]]
set_values(search, q = "My little pony")
然后我尝试了这个:
> session<-html_form(read_html("https://www.globalinnovationindex.org/analysis-indicator"))[[1]]
> set_values(session,list(ctl29$lstYear = "2013",ctl29$lstIndex="Innovation Efficiency Ratio"))
Error: unexpected '=' in "set_values(session,list(ctl29$lstYear ="
为什么在我要修改的字段名称后出现“=”是出乎意料的?是set_values()
解决此类问题的最佳选择吗?