我对 WordNet 数据文件格式有疑问。wndb(5) 手册页部分说明:
源/目标字段区分词法和语义指针。它是一个四字节字段,包含两个两位十六进制整数。前两位数字表示当前(源)同义词集中的词数,后两位数字表示目标同义词集中的词数。值 0000 表示 pointer_symbol 表示当前(源)同义词集和由 synset_offset 指示的目标同义词集之间的语义关系。
不同同义词集中的两个词之间的词汇关系由源词和目标词编号中的非零值表示。该字段的前两个字节分别表示源同义词集和目标同义词集中的词号,它们之间的关系成立。单词编号被分配给同义词集中的单词字段,从左到右,从 1 开始。
当源/目标数字非零时,我理解第二段,但是源/目标为“0000”时的含义我仍然不清楚。
让我以“贵族”一词为例。index.noun
条目是:
贵族 n 1 4 @ ~ #m + 1 0 09807754
相应的 data.noun 条目是:
09807754 18 n 03 aristocrat 0 blue_blood 0 patrician 0 013 @ 09623038 n 0000 #m 08388207 n 0000 + 01590484 a 0306 + 01590484 a 0102 ~ 09840639 n 0000 ~ 09872782 n 0000 ~ 10083823 n 0000 ~ 10175090 n 0000 ~ 10285135 n 0000 ~ 10472799 n 0000 ~ 10474064 n 0000 ~ 10505732 n 0000 ~ 10506642 n 0000 | 贵族的一员
第一个“ptr”是:
@ 09623038 n 0000
该data.noun
条目以:
09623038 18 n 01 领导者 0 058 @ 00007846 n 0000 ...
我不清楚这种关系适用于哪些词。上位词(“@”)关系是否仅适用于原始词(“贵族”)与目标同义词集中的所有词(在这种情况下,只有“领导者”)?
或者源同义词集中的所有词(“贵族”、“蓝血”和“贵族”)与目标同义词集中的所有词的关系是否成立?