不止一次,我想以编程方式使用互联网上的使用频率作为启发式方法来选择两个单词或短语中更好的一个。
显而易见的方法以及手动执行的方法是将每个术语输入搜索引擎并注意有多少“点击”。
但是大型搜索引擎已经弃用了他们的搜索 API,或者每天免费查询 100 次,即使使用 API 密钥也是如此。如果您正在从事免费项目,那就不好了。大型搜索引擎在其服务条款中也有“禁止抓取”条款。
我需要它来处理任意的,甚至是无法识别的语言,以及存储空间有限的设备。这排除了拥有本地语料库或数据库的可能性。
一个应用领域是用于维基词典编辑的工具,即使他们不懂语言,也能帮助他们选择几种变体的主要拼写。我现在想到的是使用频率作为一种启发式方法,以帮助在外国文字的拼写和拉丁字母的有损音译之间选择最佳转换。