“word-embedding”的相关标签问题

0 投票

1 回答

255 浏览

neural-network - 为什么我们需要更大的向量空间来显示词嵌入模型中的关系？

我正在研究词嵌入，对词向量的维数有点困惑。我的意思是，以 word2vec 为例，我的问题是为什么我们应该为我们的隐藏层使用 100 个隐藏神经元？这个数字背后有什么意义或逻辑吗？或者如果它是任意的，为什么不是 300？还是10？为什么不多或少？众所周知，显示向量的最简单方法是在二维空间（只有 X 和 Y）上，为什么还要更多维呢？我阅读了一些有关它的资源，在一个示例中，他们选择了 100 个维度，在另一个示例中，他们选择了其他数字，例如 150、200、80 等。

我知道数字越大，显示单词之间关系的空间就越大，但是我们不能在二维向量空间（只有 X 和 Y）上显示关系？！为什么我们需要更大的空间？每个单词都由一个向量显示，那么当我们可以在 2 或 3 维空间上显示向量时，为什么我们必须使用高维空间呢？然后使用余弦之类的相似性技术来查找 2 或 3 维而不是 100 维（从计算时间的角度来看）的相似性更简单，对吧？

2016-07-14T01:56:41.813

0 投票

1 回答

4499 浏览

nlp - word2vec：CBOW 和 skip-gram 性能 wrt 训练数据集大小

问题很简单。CBOW 和 skip-gram 中的哪一个更适合大型数据集？（小数据集的答案如下。）

我很困惑，因为米科洛夫本人，[链接]

Skip-gram：适用于少量训练数据，甚至可以很好地表示罕见的单词或短语。

CBOW：训练速度比skip-gram快几倍，对频繁词的准确率略高

但是，根据 Google TensorFlow，[链接]

CBOW 平滑了许多分布信息（通过将整个上下文视为一次观察）。在大多数情况下，这对于较小的数据集是有用的。然而，skip-gram 将每个上下文-目标对视为一个新的观察结果，当我们拥有更大的数据集

时，这往往会做得更好。在本教程的其余部分，我们将重点关注 skip-gram 模型。

这是一个支持第一个想法[Link]的 Quora 帖子，然后是另一个 Quora 帖子，它暗示了第二个想法[Link] ——两者似乎都来自上述可靠的来源。

还是像米科洛夫所说的那样：

总的来说，最好的做法是尝试一些实验，看看什么最适合你，因为不同的应用程序有不同的要求。

但在这件事上肯定有经验或分析的结论或最终说法吗？

nlp word2vec word-embedding

2016-08-30T09:50:59.680

0 投票

2 回答

2537 浏览

python - 如何使用 word2vec 获取给定单词的词嵌入向量和上下文向量？

输出向量是“king”的上下文向量还是“king”的词嵌入向量？如何获得“king”的上下文向量和“king”的词嵌入向量？谢谢！

python vector word2vec word-embedding

2016-09-09T07:28:24.973

0 投票

0 回答

353 浏览

machine-learning - Keras：优化推文特定的预训练词嵌入层

我正在从事一项分类任务，我想将推文分类为 5 个不同的类别。我正在关注用于构建模型的Keras Github IMDB 分类示例，但想修改Embedding此模型中的层。我没有将用于初始化的权重传递给Embedding层，而是使用 word2vec 权重来查找我的数据集中的每条推文，因此我可以为每条推文构造一个 (tweet_words x vector_dimension) 矩阵。

例如，“我已经厌倦了听到关于这次选举#tuningout”的推文将表示为如下矩阵：

我正在执行此查找，因为我有针对不同国家/地区分别学习的嵌入，并且我想根据推文的位置查找特定的嵌入，而不是将权重从联合嵌入传递到Embedding层进行初始化。我可以使用以下 Keras 架构将这样的矩阵直接传递给一个非常简单的 LSTM：

但是，与链接中的示例相比，它的缺点是该架构无法进一步优化Embedding层。有没有办法将每条推文的这些矩阵传递给嵌入层以进行进一步优化，如示例中所示？谢谢阅读。

machine-learning neural-network deep-learning keras word-embedding

2016-09-20T03:23:58.300

0 投票

2 回答

7589 浏览