问题标签 [word-embedding]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

955 问题

0 投票

1 回答

77 浏览

python-3.x - 使用预训练的词嵌入和真实值

我用 Keras 创建了一个带有预训练词嵌入的 NER 模型。

我想在我的模型中添加一个带有长字符串的标签。

我找不到这样做的方法。

2017-07-19T19:32:15.633

0 投票

1 回答

961 浏览

nlp - 为什么 Glove 中没有显示所有数字？

并非所有数字都在斯坦福的词嵌入框架“手套”中表示。这是为什么？

例如，“8900”的向量表示存在，但“8594”会引发错误。

nlp stanford-nlp word-embedding

2017-07-26T07:27:43.057

0 投票

7 回答

19016 浏览

nlp - 词嵌入中的维数是什么？

我想了解词嵌入中的“维度”是什么意思。

当我为 NLP 任务以矩阵的形式嵌入单词时，维度起什么作用？有没有可以帮助我理解这个概念的视觉示例？

nlp terminology dimensionality-reduction word-embedding

2017-07-29T23:24:19.650

0 投票

1 回答

59 浏览

windows - WinAPI 函数的面向上下文的编码

长话短说，我有一个随机程序的 WinAPI 调用列表，我想对其进行一些数据分析（fe 分类或序列标签）。

显然，我不能使用符号名称，所以我想知道是否有任何方法可以根据函数的上下文（通过与词嵌入类比）将函数表示为向量，或者上下文和函数目的之间没有或非常弱的依赖性。

因此，简而言之，我正在寻找将 WinAPI 函数映射到其向量表示的算法（或至少是一些想法开始），具体取决于函数上下文（参数列表）。

windows winapi nlp word-embedding

2017-07-31T12:50:49.557

0 投票

1 回答

303 浏览

numpy - 词嵌入关系

我想了解更多关于我可以对词嵌入向量执行的代数函数。我知道通过余弦相似度我可以得到最相似的词。但我需要再做一层推理并得到以下关系：

X1 与 X2 的关系类似于 X3 与 X4 的关系。

作为例子，我可以说公主与王子的关系就像女人与男人的关系。我有 X1 到 X3，我的问题是我如何有效地弄清楚 X4 可以是什么。我尝试了余弦向量的绝对差，但它不起作用。

numpy matrix word2vec algebra word-embedding

2017-08-01T18:02:56.860

0 投票

2 回答

2353 浏览

tensorflow - 函数式 API 中可变长度的 Keras 嵌入层

我有以下适用于可变长度输入的顺序模型：

给出以下总结：

但是，当我尝试在功能 API 中实现相同的模型时，我不知道我尝试了什么，因为输入层的形状似乎与顺序模型不同。这是我的尝试之一：

这是摘要：

tensorflow keras word-embedding

2017-08-02T11:57:28.437

0 投票

2 回答

5521 浏览

tensorflow - 初始化词汇表外 (OOV) 标记

我正在为 NLP 任务构建 TensorFlow 模型，并且正在使用预训练的 Glove 300d 词向量/嵌入数据集。

显然，某些标记不能被解析为嵌入，因为没有包含在词向量嵌入模型的训练数据集中，例如稀有名称。

我可以用 0 的向量替换这些标记，但我更愿意以某种方式对其进行编码并将其包含到我的训练数据中，而不是将这些信息丢弃在地板上。

说，我有 'raijin' 词，它不能被解析为嵌入向量，用 Glove 嵌入数据集对其进行编码的最佳方法是什么？将其转换为 300d 矢量的最佳方法是什么？

谢谢你。

tensorflow embedding word-embedding

2017-08-03T21:58:11.610

0 投票

1 回答

1720 浏览

neural-network - 将新词向量嵌入添加到神经网络的现有嵌入空间有什么影响

在 Word2Vector 中，词嵌入是使用共现和更新向量的维度来学习的，以便在彼此的上下文中出现的词更接近。

我的问题如下：

1）如果你已经有一组预训练的嵌入，假设一个 100 维空间有 40k 个单词，你可以在这个嵌入空间中添加 10 个额外的单词而不改变现有的单词嵌入。因此，您只会使用现有的词嵌入来更新新词的维度。我正在考虑关于“单词 2 向量”算法的这个问题，但是如果人们对 GLoVe 嵌入在这种情况下如何工作有见解，我仍然非常感兴趣。

2）问题的第2部分是；然后，您能否在使用先前嵌入集训练的 NN 中使用新词嵌入并期望得到合理的结果。例如，如果我训练了一个用于情感分析的神经网络，而“紧张”这个词以前不在词汇表中，那么“紧张”会被正确分类为“负面”。

这是一个关于 NN 对嵌入有多敏感（或鲁棒）的问题。我很感激任何想法/见解/指导。

neural-network word2vec word-embedding

2017-08-03T23:05:02.973

0 投票

1 回答

1922 浏览

nlp - wmd（词移动距离）和基于 wmd 的相似度有什么区别？

我正在使用 WMD 来计算句子之间的相似度。例如：

参考：https ://markroxor.github.io/gensim/static/notebooks/WMD_tutorial.html

但是，也有基于 WMD 的相似性方法(WmdSimilarity).

参考： https ://markroxor.github.io/gensim/static/notebooks/WMD_tutorial.html

除了明显的是距离和相似度之外，两者之间有什么区别？

更新：两者完全相同，只是表示方式不同。

https://github.com/RaRe-Technologies/gensim/blob/develop/gensim/similarities/docsim.py

nlp nltk gensim word2vec word-embedding

2017-08-04T08:59:17.083

0 投票

1 回答

796 浏览

nlp - 如何将 One-Hot Encoding 值计算为实值向量？

在 Word2Vec 中，我了解到 CBOW 和 Skip-gram 都产生一个单热编码值来创建一个向量（cmiiw），我想知道如何计算或表示一个单热编码值到一个实值向量，例如（来源：DistrictDataLab's Blog about Distributed Representations） from this: One-Hot Encoding 的例子 into: please help，我一直在努力寻找这些信息。

nlp deep-learning word2vec word-embedding

2017-08-06T11:18:31.030

1 2 3 4 5 6 7 8 9 10

问题标签 [word-embedding]

Reference