0

又一个英语维基词典解析问题。

总的来说,我准备好解析 wikitext 格式,所以标准 API 适合我。

问题是我想使用英语维基词典 API 来获取变格表。出于某种奇怪的原因,这些表由代码引用。有时它们在输出中,但在大多数情况下它们都丢失了。例如,调用像http://en.wiktionary.org/w/api.php?format=xml&action=query&titles=крот&rvprop=content&prop=revisions&redirects=1这样的俄语单词会产生:

====Declension====
{{ru-noun-table|b|a=an}}

如何将其转换为完整的变格表?

我从这里玩了一堆参数:https ://www.mediawiki.org/wiki/API:Query - 没有结果。

我发现的一种解决方法是使用新的 Wiktionary RESTful API,如下所示:https ://en.wiktionary.org/api/rest_v1/page/html/крот (参考:https ://en.wiktionary.org/api/ rest_v1/#/)。但它只返回 HTML,更难解析!

这是可以做到的最好的吗?

也许对变格表有特殊要求吗?我的意思是,如果它被生成,那么一定有办法。

4

1 回答 1

0

该表是由一个维基词典生成的Module,即Module:ru-noun,它是一个lua脚本。它的功能类似于常规的 mediawiki 模板调用,脚本通过参数 ( b,a=an) 进行上下文化,并且可以访问页面名称 ( крот)。

有关这背后的合理性,请参阅“ Wikinflection:来自维基词典的多语言屈折语料库的大规模半监督生成”,然后是由此产生的Dictionary builder 项目

于 2020-07-19T07:12:30.497 回答