7

谷歌声明可以使用“词向量算法”来确定流行的关键字。我研究了http://en.wikipedia.org/wiki/Vector_space_model,但无法理解术语“术语向量算法”。

请用简短的摘要,非常简单的语言来解释它,仿佛读者是一个孩子。

我相信“向量”是指数学定义,一个具有方向和大小的量。关键字的数量如何朝着一个方向移动?

http://en.wikipedia.org/wiki/Vector_space_model声明“每个维度对应一个单独的术语。” 我认为维度与基数有关,对吗?

在此处输入图像描述

摘自 Alex Holmes 所著的 Hadoop In Practice 一书,第 12 页。

4

3 回答 3

9

这意味着每个单词形成一个单独的维度:

示例:(无耻地取自这里

对于仅包含三个单词的模型,您将获得:

dict = { dog, cat, lion }

Document 1
“cat cat” → (0,2,0) 

Document 2
“cat cat cat” → (0,3,0)

Document 3
“lion cat” → (0,1,1)

Document 4 
“cat lion” → (0,1,1)
于 2013-07-24T23:25:35.483 回答
0

MapReduce 最流行的例子是计算工作频率;即,将单词作为键输出为 1 作为值的映射步骤,以及对每个单词的数字求和的归约步骤。因此,如果网页有一个出现的(可能重复的)单词列表,则该列表中的每个单词都映射为 1。reduce 步骤本质上是计算每个单词在该页面中出现的次数。您可以跨页面、网站或任何标准执行此操作。结果数据是一个字典,将单词映射到频率,这实际上是一个词频向量。

Example document: "a be see be a"
Resulting data: { 'a':2, 'be':2, 'see':1 }
于 2013-07-24T23:33:44.483 回答
0

术语向量听起来只是意味着每个术语都有一个权重或数值,可能对应于该术语被提及的次数。

您正在考虑单词向量的几何含义,但还有另一个数学含义仅表示多维,即不是说 x,y,z,而是说向量 x 以粗体表示,它具有多个维度 x1、x2、x3 ...... xn 和一些值。因此,对于术语向量,向量是术语,它采用术语 1、术语 2 到术语 n 的形式。然后每个都可以有一个值,就像 x、y 或 z 有一个值一样。

例如,术语 1 可以是狗,术语 2 猫,术语 3 狮子,每个具有权重 2、3、1,这意味着单词 dog 出现了两次,cat 出现了 3 次,lion 出现了 1 次。

于 2013-07-25T01:01:41.710 回答