我希望在我的项目中使用 Google 2-grams;但是数据大小使搜索在速度和存储方面都变得昂贵。
是否有可用于此目的的 Web-API(任何语言)?网站http://books.google.com/ngrams/graph呈现图像,我可以获取数据值吗?
问问题
11450 次
2 回答
13
好吧,我得到了一个关于这样做的方法,使用谷歌 BigQuery
在那里,三元组在公共领域是可用的。使用命令行访问为我完成了这项工作。
于 2012-07-02T08:36:06.823 回答
8
我找到了一个不错的选择:Microsoft Web N-Gram
它可以通过不同的方式进行查询,包括通过REST 接口的直接 GET 调用。例如,调用 URL:
http://weblm.research.microsoft.com/weblm/rest.svc/bing-body/apr10/1/jp?u={YOUR_TOKEN}&p=red+panda
返回
-9.005
这是短语的对数似然red panda
。
此外,它比 Google N-Grams 更方便,对于给定的短语,它不仅可以输出其绝对频率,还可以输出其联合概率、条件概率甚至最可能出现的单词。
免责声明:我不是 Microsoft 员工,我只是认为我刚刚发现了一项很棒的服务。
于 2014-03-25T17:22:47.733 回答