问题标签 [glove]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1058 浏览

python - 训练我自己的 Glove 模型时出现编码问题

我正在用我自己的语料库训练一个 GloVe 模型,但我无法以某种utf-8格式保存/加载它。

这是我尝试过的:

保存的文件glove.model.txt不可读,我无法使用utf-8编码成功保存它。

当我尝试阅读它时,例如将其转换为 Word2Vec 格式:

我有以下错误:

关于如何使用我自己的 GloVe 模型的任何想法?

0 投票
1 回答
569 浏览

python - 用 gensim 加载 Glove 向量的一部分

我有一个单词列表['like','Python'],我想加载这些单词的预训练 Glove 词向量,但是 Glove 文件太大,有什么快速的方法吗?

我试过的

我遍历文件的每一行以查看单词是否在列表中,如果为真,则将其添加到字典中。但是这种方法有点慢。

我也在下面尝试过,但它加载了整个文件而不是我需要的向量

我想要的是

类似的方法,gensim.models.keyedvectors.KeyedVectors.load_word2vec_format但我可以设置要加载的单词列表。

0 投票
2 回答
6185 浏览

tensorflow - 如何在 tensorflow 2.0 RNN 中使用预训练的嵌入矩阵作为嵌入层的初始权重?

我想使用预训练的 GloVe 嵌入作为 RNN 编码器/解码器中嵌入层的初始权重。代码在 TensorFlow 2.0 中。简单地将嵌入矩阵作为 weights = [embedding_matrix] 参数添加到 tf.keras.layers.Embedding 层不会这样做,因为编码器是一个对象,我现在不确定是否有效地将 embedding_matrix 传递给这个对象训练时间。

我的代码紧跟Tensorflow 2.0 文档中的神经机器翻译示例。在这个例子中,我如何向编码器添加一个预训练的嵌入矩阵?编码器是一个对象。当我开始训练时,Tensorflow 图无法使用 GloVe 嵌入矩阵。我收到错误消息:

RuntimeError:无法在 Tensorflow 图函数中获取值。

该代码在训练过程中使用了 GradientTape 方法和教师强制。

我尝试修改编码器对象以在各个点包含 embedding_matrix,包括在编码器的init、call 和 initialize_hidden_​​state 中。所有这些都失败了。关于 stackoverflow 和其他地方的其他问题是针对 Keras 或更旧版本的 Tensorflow,而不是 Tensorflow 2.0。

0 投票
1 回答
45 浏览

machine-learning - 应用 GloVe 嵌入后如何创建词袋特征向量?

如果我有两条影评:

我对它们应用 GloVe 嵌入,我将得到两个向量,其中包含多个单词向量,如下所示:

基本上,评论中的每个单词都会被转换成一个 300 元素的浮点数数组。由于数组的长度可变,我不能将它们插入分类器。

我想过做某种词袋表示,但我不确定既然单词已经变成了数字,我将如何实现它。

0 投票
3 回答
802 浏览

python-3.x - 无法在 pandas 数据框中读取 glove.6B.300d.txt

我正在尝试将 glove.6B.300d.txt 文件读入 Pandas 数据框。(文件可以从这里下载:https ://github.com/stanfordnlp/GloVe )

以下是我得到的例外:

0 投票
2 回答
7580 浏览

machine-learning - glove 和 word2vec 之间的主要区别是什么?

word2vec 和 glove 有什么区别?两种方法都可以训练词嵌入吗?如果是,那么我们如何同时使用两者?

0 投票
1 回答
744 浏览

r - 将 GloVe 预训练的嵌入作为矩阵读入 R

在 R 中工作。我知道预训练的 GloVe 嵌入(例如,“glove.6B.50d.txt”)可以在这里找到:https ://nlp.stanford.edu/projects/glove/ 。但是,我将这个文本文件读入 R 的运气为零,因此产品是由向量组成的词嵌入矩阵。有没有人成功地做到了这一点,无论是从保存的 .txt 文件还是从网站本身,如果是这样,该文本是如何转换为 R 中的矩阵的?

0 投票
1 回答
901 浏览

python - IMDB 数据集预处理不适合 GLoVe 词嵌入?

我想使用预训练的 GLoVe 向量、LSTM 和具有 sigmoid 激活的最终密集层在 IMDB 数据集上训练一个简单的情感分类器。

我遇到的问题是获得的准确率相对较低: 78% 。这低于使用可训练嵌入层而不是 GLoVe 向量时的 82% 准确度。

我认为这主要是因为数据集中只有67.9%的词是在GLoVe文件中找到的(我使用的是6B语料库)。

我查看了一些在 GLoVe 文件中找不到的单词,其中一些示例是:

祖母的双胞胎

基本上很多带引号的单词在 GLoVe 文件中都找不到。

我想知道是否需要对数据进行不同的预处理。目前,预处理由函数负责imdb.load_data()

我尝试使用更大的 42B 单词语料库,但这仅导致 76.5% 的覆盖率。

我想知道是否应该对数据进行不同的标记以获得良好的覆盖率。

代码是这样的:

load_embeddings.py

火车.py

0 投票
1 回答
449 浏览

nlp - word2vec、glove 和 elmo 有什么区别?

word2vec、glove 和 elmo 有什么区别?根据我的理解,它们都用于训练词嵌入,对吗?

0 投票
1 回答
34 浏览

nlp - when calculating the cooccurance of two words, do we sepate the sentences or linking all sentences?

For example, I get I document that contains 2 sentences: I am a person. He also likes apples. Do we need to count the cooccurrence of "person" and "He" ?