machine-learning - 什么是训练集中短语的原型向量

Question

我正在尝试在论文之后实施一种方法来消除实体的歧义。该过程包括两个步骤，训练阶段和消歧阶段。我想问一下训练阶段，我不太明白如何获得原型向量，如本段所述：

在训练阶段，我们为每个与特定实体链接至少 10 次的单词或短语计算我们所谓的原型向量：这是一个 tf.idf 加权的标准化列表，其中包含出现在一个特定实体中的所有术语各个链接的邻域（我们考虑左右各 10 个单词）。请注意，同一个单词或短语可以有多个这样的原型向量，每个实体一个对应于从集合中该单词或短语的某些出现链接的每个实体。

他们使用了维基百科的方法，并使用来自维基百科的链接作为训练集。

有人可以帮我举一个原型向量的例子吗？我是这个领域的初学者。

score 2 · Accepted Answer

这是原型向量的草图：

首先要注意的是，维基百科中的一个词可以是维基百科页面的超链接（我们将其称为实体）。该实体以某种方式与单词相关，但同一个单词可以链接到不同的实体。

“对于每个与特定实体至少链接 10 次的单词或短语”

在整个维基百科中，我们计算word_A链接到的次数entity_B，如果超过 10 次，我们继续（写下它们链接的实体的位置）：

[(wordA, entityA1), (wordA, entityA2),...]

这里wordA发生在entityA1它链接到的地方entityB，等等。

“出现在相应链接的邻域之一中的所有术语的列表”

在entityA1,wordA左右各有 10 个单词（我们在两边只显示 4 个）：

are developed and the entity relationships between these data
                      wordA
                      link # (to entityB)

['are', 'developed, 'and', 'the', 'relationships', 'between', 'these', 'data']

每对(wordA, entityAi)都给我们这样一个列表，将它们连接起来。

“tf.idf 加权、标准化列表”

基本上，tf.idf意味着您应该比不常见的词赋予常用词更少的“权重”。例如，'and'and'the'是非常常见的词，因此我们赋予它们的意义（在它们旁边'entity'）比'relationships'or少'between'。

归一化，意味着我们应该（基本上）计算一个单词出现的次数（它出现的次数越多，我们认为它与wordA.将最常见的最不常见的词放在顶部。

“请注意，同一个单词或短语可以有多个这样的原型向量”

这不仅依赖于，wordA而且entityB，您可以将其视为映射。

(wordA, entityB) -> tf.idf-weighted, normalized list (as described above)
(wordA, entityB2) -> a different tf.idf-weighted, normalized list

这表明从单词中与猫的链接比与猫女人'cat'的链接更不可能有邻居。'batman'

machine-learning - 什么是训练集中短语的原型向量

1 回答 1

“对于每个与特定实体至少链接 10 次的单词或短语”

“出现在相应链接的邻域之一中的所有术语的列表”

“tf.idf 加权、标准化列表”

“请注意，同一个单词或短语可以有多个这样的原型向量”

Related

Reference