28

我正在尝试建立一个简单的同义词数据库并运行,这样我就可以找到用户输入的单词的同义词(没有别的了!)。为此,我获取了 Wordnet sql 同义词库 ( http://wnsql.sourceforge.net/ ) 的副本,但现在我看到了所有这些表,但我在任何地方都找不到任何关于它们内容的简单解释:

adjpositions
adjpositiontypes
casedwords
lexdomains
lexlinks
linktypes
morphmaps
morphs
postypes
samples
semlinks
senses
synsets
vframemaps
vframes
vframesentencemaps
vframesentences
words

有人可以告诉我这些表包含什么以及我需要哪些,因为我无法根据他们的数据破译他们的内容。

4

4 回答 4

44

WordNet 是一个超酷的单词数据库。我自己一直在研究它。我将在下面列出我的发现——希望它能帮助您更好地理解这些表格。

Synset 表 synsets 表是数据库中最重要的表之一。它负责容纳 WordNet 中的所有定义。synset 表中的每一行都有一个 synsetid、一个定义、一个 pos(词性字段)和一个 lexdomainid(链接到 lexdomain 表) WordNet 数据库中有 117373 个同义词集。

Words Table WordNet 也有一个“words”表,它只有两个字段:一个 wordid 和一个“lemma”。单词表负责存放 Wordnet 数据库中的所有词条(基本词)。此表有 146625 个条目

那么..这两个表是如何链接的?答案?感官表!

意义表 意义表负责将单词(在单词表中)与定义(在同义词表中)链接在一起。词义表中的条目被称为“词义对”——因为 wordid 与同义词集的每一对都是一个词的完整含义——“词义”。
WordNet 数据库中共有 206,354 个词义。

Lexdomains 表 Lexdomains 表由语义表引用,用于定义词义对所属的词汇域。lexdomains 表中有 45 个词法域。因此,词法域表是 WordNet “标记”词义对的方式。然而,它是相当有限的,因为一个词义对只能属于一个词汇域。

45 个词汇域包括:

形容词: 全部,pert

副词 全部

名词 上衣,行为,动物,人工制品,属性,身体,认知,通讯,事件,感觉,食物,组,位置,动机,对象,人,现象,植物,拥有,过程,数量,linkdef,形状,状态,物质, 时间,

动词 体、变化、认知、交流、竞争、消费、联系、创造、情感、运动、知觉、占有、社会、静态、天气、人

casedwords 表 words 表中 的一些词自然地首字母大写,即:“A-team”。由于单词表将所有单词都存储为小写,因此 WordNet 使用此表来指定单词的大写版本。此表中有 40313 个条目。

WordNet DB 中还有许多其他表,一旦我研究过它们,我会再次发布。

查找您的同义词 要回答有关同义词的问题 - 您需要执行以下操作。

假设您要查找单词“Carry”的同义词。为此,您将首先在单词表中搜索与单词“carry”匹配的引理。这将产生 wordid 21253。然后您将搜索 senses 表,以查找单词 carry 的所有词义对。这会产生 41 个结果 - 每个结果都列出了 wordid 21253、一个 senseid(它是词义对的索引)和一个 synsetid。

现在,您需要为每个返回的 synsetid 查询 synset 表,以便您可以访问 synset 表中的关联定义字段。

最后,要查找列出的每个同义词集的同义词,您只需在词义表中搜索共享相同同义词集的其他词义对。

示例:“carry”一词的 41 个词义对之一如下所示: 词义示例 如果我们查找此 synsetid 202083512 的定义,您会发现“传输或作为传输媒介”</p>

要查找此定义的所有同义词,您将在语义表中搜索相同的 synsetid 202083512。这会产生同义词:通道、行为、传达、传授和传输(注意:您需要左连接词表才能获得实际的引理)

我希望这有助于为您揭开 WordNet 的神秘面纱。我觉得它很酷...

于 2013-11-07T12:22:11.673 回答
6

Paul Preibisch 解释了几个核心表格,以下是对其余表格的简短说明:

adjpositiontypes - 定义了形容词在英语中可以采取的三个位置,谓词,定语和直接后名。

adjpositions - 将具体单词(形容词)与其在 adjpositiontypes 表中允许的位置类型联系起来。

linktypes - 定义了 wordnet 中使用的所有关系(链接)类型,大约有两打。lexlinks 和 semlinks 表都使用这个表来定义每个链接的类型。一些链接类型被标记为递归,这意味着如果“家具”是例如“椅子”的上位词,那么“椅子”是“家具”的下义词。

lexlinks - 词汇链接,即单词之间的关系。示例:
悲伤 - 悲伤(推导)

semlinks - 语义链接,即同义词集之间的关系。示例:
椅子 - 家具(上位词)

morphs - 连接到“单词”表,包含不规则的单词形式。一个单词可以有多个变体,一个变体可以是多个单词的不规则形式,因此您还有morphmaps表。示例:
算盘(单词)-算盘(变形)abhor(单词)-abhorred,abhorring(
变形)

posttypes - 定义“词性”。仅包含以下值:
n – 名词、v – 动词、a – 形容词、r – 副词、s – 形容词卫星。

样本- 同义词的样本句子。一个同义词集可以有多个样本。

vframemaps & vframes - vframes 定义了一种标准的“动词模板”。Vframemaps 将单词(动词)与它们可以出现的相应 vframe 链接起来。

vframesentencemaps & vframesentences - 类似于前两个表,只是在这里你有整个句子作为动词模板。

于 2015-05-18T16:02:35.633 回答
2

要正确理解 Wordnet 中各种术语的含义,您应该阅读大量文档。对于同义词,您主要需要该synsets表。您下载的项目中的实际数据库表在项目的架构页面上进行了描述。

于 2013-08-17T10:11:56.980 回答
1

我认为这个数字将帮助您揭开 WordnetDB 的神秘面纱。

这个图 我在/mysql-3.0.0-31-wn-31/doc/images. 为了获得更清晰的图片,您可以tables-wordnet.png在该文件夹中进行选择。

于 2017-12-14T01:58:31.737 回答