我有一个不错的小包来抓取Google Ngram数据,但我发现他们已经切换到 SSL 并且我的包坏了。如果我从那里切换readLines
到getURL
某些方式,但页面中包含的一些脚本丢失了。我需要对用户代理或其他东西感兴趣吗?
这是我迄今为止尝试过的(非常基本的):
library(RCurl)
myurl <- "https://books.google.com/ngrams/graph?content=hacker&year_start=1950&year_end=2000"
getURL(myurl)
将结果与在浏览器中输入 url 后查看源进行比较表明,返回给 R 的结果中缺少关键内容。在浏览器中,源包含如下内容:
<script type="text/javascript">
var data = [{"ngram": "hacker", "type": "NGRAM", "timeseries": [9.4930387994907051e-09,
1.1685493106483591e-08, 1.0784501440023556e-08, 1.0108472218003532e-08,
等等
任何建议将不胜感激!