我将用多种语言(英语、日语等)解析一个维基词典文件。从这里(Parse Wiktionary XML data dump into MySQL database using PHP)我看到了它的基本结构。但我的问题是这些元素代表什么?
例如,我认为页面元素下的标题是词汇表中的一个单词。但是它在其他语言中的翻译在哪里?它的同义词在哪里?
我将用多种语言(英语、日语等)解析一个维基词典文件。从这里(Parse Wiktionary XML data dump into MySQL database using PHP)我看到了它的基本结构。但我的问题是这些元素代表什么?
例如,我认为页面元素下的标题是词汇表中的一个单词。但是它在其他语言中的翻译在哪里?它的同义词在哪里?
“……翻译成其他语言?它的同义词在哪里?”
有三个坏消息要告诉你。
所有这些信息(翻译、同义词)都是维基词典文章的纯文本。
维基词典文章的结构没有在 XML 文件中呈现,它只是一个简单的纯文本,参见第 1 项。因此您需要解析该文本以提取同义词或翻译。
欢迎您阅读我关于将维基词典文章的文本转换(解析)为机器可读数据库的论文:http: //arxiv.org/abs/1011.1368