WordNet 是一个超酷的单词数据库。我自己一直在研究它。我将在下面列出我的发现——希望它能帮助您更好地理解这些表格。
Synset 表
synsets 表是数据库中最重要的表之一。它负责容纳 WordNet 中的所有定义。synset 表中的每一行都有一个 synsetid、一个定义、一个 pos(词性字段)和一个 lexdomainid(链接到 lexdomain 表) WordNet 数据库中有 117373 个同义词集。
Words Table
WordNet 也有一个“words”表,它只有两个字段:一个 wordid 和一个“lemma”。单词表负责存放 Wordnet 数据库中的所有词条(基本词)。此表有 146625 个条目
那么..这两个表是如何链接的?答案?感官表!
意义表
意义表负责将单词(在单词表中)与定义(在同义词表中)链接在一起。词义表中的条目被称为“词义对”——因为 wordid 与同义词集的每一对都是一个词的完整含义——“词义”。
WordNet 数据库中共有 206,354 个词义。
Lexdomains 表
Lexdomains 表由语义表引用,用于定义词义对所属的词汇域。lexdomains 表中有 45 个词法域。因此,词法域表是 WordNet “标记”词义对的方式。然而,它是相当有限的,因为一个词义对只能属于一个词汇域。
45 个词汇域包括:
形容词:
全部,pert
副词
全部
名词
上衣,行为,动物,人工制品,属性,身体,认知,通讯,事件,感觉,食物,组,位置,动机,对象,人,现象,植物,拥有,过程,数量,linkdef,形状,状态,物质, 时间,
动词
体、变化、认知、交流、竞争、消费、联系、创造、情感、运动、知觉、占有、社会、静态、天气、人
casedwords 表 words 表中
的一些词自然地首字母大写,即:“A-team”。由于单词表将所有单词都存储为小写,因此 WordNet 使用此表来指定单词的大写版本。此表中有 40313 个条目。
WordNet DB 中还有许多其他表,一旦我研究过它们,我会再次发布。
查找您的同义词
要回答有关同义词的问题 - 您需要执行以下操作。
假设您要查找单词“Carry”的同义词。为此,您将首先在单词表中搜索与单词“carry”匹配的引理。这将产生 wordid 21253。然后您将搜索 senses 表,以查找单词 carry 的所有词义对。这会产生 41 个结果 - 每个结果都列出了 wordid 21253、一个 senseid(它是词义对的索引)和一个 synsetid。
现在,您需要为每个返回的 synsetid 查询 synset 表,以便您可以访问 synset 表中的关联定义字段。
最后,要查找列出的每个同义词集的同义词,您只需在词义表中搜索共享相同同义词集的其他词义对。
示例:“carry”一词的 41 个词义对之一如下所示:
如果我们查找此 synsetid 202083512 的定义,您会发现“传输或作为传输媒介”</p>
要查找此定义的所有同义词,您将在语义表中搜索相同的 synsetid 202083512。这会产生同义词:通道、行为、传达、传授和传输(注意:您需要左连接词表才能获得实际的引理)
我希望这有助于为您揭开 WordNet 的神秘面纱。我觉得它很酷...