这是原型向量的草图:
首先要注意的是,维基百科中的一个词可以是维基百科页面的超链接(我们将其称为实体)。该实体以某种方式与单词相关,但同一个单词可以链接到不同的实体。
“对于每个与特定实体至少链接 10 次的单词或短语”
在整个维基百科中,我们计算word_A
链接到的次数entity_B
,如果超过 10 次,我们继续(写下它们链接的实体的位置):
[(wordA, entityA1), (wordA, entityA2),...]
这里wordA
发生在entityA1
它链接到的地方entityB
,等等。
“出现在相应链接的邻域之一中的所有术语的列表”
在entityA1
,wordA
左右各有 10 个单词(我们在两边只显示 4 个):
are developed and the entity relationships between these data
wordA
link # (to entityB)
['are', 'developed, 'and', 'the', 'relationships', 'between', 'these', 'data']
每对(wordA, entityAi)
都给我们这样一个列表,将它们连接起来。
“tf.idf 加权、标准化列表”
基本上,tf.idf意味着您应该比不常见的词赋予常用词更少的“权重”。例如,'and'
and'the'
是非常常见的词,因此我们赋予它们的意义(在它们旁边'entity'
)比'relationships'
or少'between'
。
归一化,意味着我们应该(基本上)计算一个单词出现的次数(它出现的次数越多,我们认为它与wordA
.将最常见的最不常见的词放在顶部。
“请注意,同一个单词或短语可以有多个这样的原型向量”
这不仅依赖于,wordA
而且entityB
,您可以将其视为映射。
(wordA, entityB) -> tf.idf-weighted, normalized list (as described above)
(wordA, entityB2) -> a different tf.idf-weighted, normalized list
这表明从单词中与猫的链接比与猫女人'cat'
的链接更不可能有邻居。'batman'