如何使用维基词典的 API 来确定一个单词是否存在?
9 回答
维基词典 API可用于查询单词是否存在。
现有和不存在页面的示例:
http://en.wiktionary.org/w/api.php?action=query&titles=test
http://en.wiktionary.org/w/api.php?action=query&titles=testx
第一个链接提供了可能更容易解析的其他类型格式的示例。
要以小的 XHTML 格式检索单词的数据(应该不止需要存在),请请求页面的可打印版本:
http://en.wiktionary.org/w/index.php?title=test&printable=yes
http://en.wiktionary.org/w/index.php?title=testx&printable=yes
然后可以使用任何标准的 XML 解析器来解析这些内容。
仅检查维基词典中是否有您要查找的名称的页面有一些注意事项:
警告#1:包括英语维基词典在内的所有维基词典实际上都有包含每种语言中的每个单词的目标,因此如果您只是使用上面的 API 调用,您将知道您所询问的单词是至少一种语言中的单词,但是不一定是英语:http ://en.wiktionary.org/w/api.php?action=query&titles=dicare
警告 #2:也许存在从一个词到另一个词的重定向。它可能来自替代拼写,但也可能来自某种错误。上面的 API 调用不会区分重定向和文章:http ://en.wiktionary.org/w/api.php?action=query&titles=profilemetry
警告 #3:包括英语维基词典在内的一些维基词典包括“常见的拼写错误”:http ://en.wiktionary.org/w/api.php?action=query&titles=fourty
警告#4:一些维基词典允许存根条目很少或没有关于该术语的信息。这曾经在几个维基词典中很常见,但在英语维基词典中并不常见。但它现在似乎也传播到了英语维基词典:https ://en.wiktionary.org/wiki/%E6%99%B6%E7%90%83(当存根被填充时的永久链接,所以你仍然可以看到存根是什么样的:https ://en.wiktionary.org/w/index.php?title=%E6%99%B6%E7%90%83&oldid=39757161 )
如果这些不包含在您想要的内容中,您将不得不加载和解析 wikitext 本身,这不是一项简单的任务。
为了保持简单,从转储中提取单词,如下所示:
bzcat pages-articles.xml.bz2 | grep '<title>[^[:space:][:punct:]]*</title>' | sed 's:.*<title>\(.*\)</title>.*:\1:' > words
如果您使用 Python,则可以使用Suyash Behera 的WiktionaryParser。
您可以通过以下方式安装它
sudo pip install wiktionaryparser
示例用法:
>>> from wiktionaryparser import WiktionaryParser
>>> parser = WiktionaryParser()
>>> word = parser.fetch('test')
>>> another_word = parser.fetch('test', 'french')
>>> parser.set_default_language('french')
您可能想尝试 JWKTL。我刚刚发现它;)
如前所述,这种方法的问题在于维基词典提供了有关所有语言的所有单词的信息。因此,使用 Wikipedia API 检查页面是否存在的方法将不起作用,因为有很多页面都是非英语单词。为了克服这个问题,您需要解析每一页以确定是否有描述英文单词的部分。解析 wikitext 并不是一项简单的任务,尽管在你的情况下它并没有那么糟糕。要涵盖几乎所有情况,您只需检查 wikitext 是否包含English
标题。根据您使用的编程语言,您可以找到一些构建AST的工具来自维基文本。这将涵盖大多数情况,但不是全部,因为维基词典包含一些常见的拼写错误。
作为替代方案,您可以尝试使用Lingua Robot或类似的东西。Lingua Robot 解析维基词典内容并将其作为REST API 提供。非空响应意味着该词存在。请注意,与维基词典相反,API 本身不包含任何拼写错误(至少在撰写此答案时)。另请注意,维基词典不仅包含单词,还包含多词表达。
您可以使用修订API:
或者解析API:
https://en.wiktionary.org/w/api.php?action=parse&page=test&prop=wikitext&formatversion=2
More examples are provided in the documentation.
这是解析词源和发音数据的开始:
function parsePronunciationLine(line) {
let val
let type
line.replace(/\{\{\s*a\s*\|UK\s*\}\}\s*\{\{IPA\|\/?([^\/\|]+)\/?\|lang=en\}\}/, (_, $1) => {
val = $1
type = 'uk'
})
line.replace(/\{\{\s*a\s*\|US\s*\}\}\s*\{\{IPA\|\/?([^\/\|]+)\/?\|lang=en\}\}/, (_, $1) => {
val = $1
type = 'us'
})
line.replace(/\{\{enPR|[^\}]+\}\},?\s*\{\{IPA\|\/?([^\/\|]+)\/?\|lang=en}}/, (_, $1) => {
val = $1
type = 'us'
})
line.replace(/\{\{a|GA\}\},?\s*\{\{IPA\|\/?([^\/\|]+)\/?\|lang=en}}/, (_, $1) => {
val = $1
type = 'ga'
})
line.replace(/\{\{a|GA\}\},?.+\{\{IPA\|\/?([^\/\|]+)\/?\|lang=en}}/, (_, $1) => {
val = $1
type = 'ga'
})
// {{a|GA}} {{IPA|/ˈhæpi/|lang=en}}
// * {{a|RP}} {{IPA|/pliːz/|lang=en}}
// * {{a|GA}} {{enPR|plēz}}, {{IPA|/pliz/|[pʰliz]|lang=en}}
if (!val)
return
return { val, type }
}
function parseEtymologyPiece(piece) {
let parts = piece.split('|')
parts.shift() // The first one is ignored.
let ls = []
if (langs[parts[0]]) {
ls.push(parts.shift())
}
if (langs[parts[0]]) {
ls.push(parts.shift())
}
let l = ls.pop()
let t = parts.shift()
return [ l, t ]
// {{inh|en|enm|poisoun}}
// {{m|enm|poyson}}
// {{der|en|la|pōtio|pōtio, pōtiōnis|t=drink, a draught, a poisonous draught, a potion}}
// {{m|la|pōtō|t=I drink}}
// {{der|en|enm|happy||fortunate, happy}}
// {{cog|is|heppinn||lucky}}
}
这是一个更充实的要点。