问题标签 [glove]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 训练我自己的 Glove 模型时出现编码问题
我正在用我自己的语料库训练一个 GloVe 模型,但我无法以某种utf-8
格式保存/加载它。
这是我尝试过的:
保存的文件glove.model.txt
不可读,我无法使用utf-8
编码成功保存它。
当我尝试阅读它时,例如将其转换为 Word2Vec 格式:
我有以下错误:
关于如何使用我自己的 GloVe 模型的任何想法?
python - 用 gensim 加载 Glove 向量的一部分
我有一个单词列表['like','Python']
,我想加载这些单词的预训练 Glove 词向量,但是 Glove 文件太大,有什么快速的方法吗?
我试过的
我遍历文件的每一行以查看单词是否在列表中,如果为真,则将其添加到字典中。但是这种方法有点慢。
我也在下面尝试过,但它加载了整个文件而不是我需要的向量
我想要的是
类似的方法,gensim.models.keyedvectors.KeyedVectors.load_word2vec_format
但我可以设置要加载的单词列表。
tensorflow - 如何在 tensorflow 2.0 RNN 中使用预训练的嵌入矩阵作为嵌入层的初始权重?
我想使用预训练的 GloVe 嵌入作为 RNN 编码器/解码器中嵌入层的初始权重。代码在 TensorFlow 2.0 中。简单地将嵌入矩阵作为 weights = [embedding_matrix] 参数添加到 tf.keras.layers.Embedding 层不会这样做,因为编码器是一个对象,我现在不确定是否有效地将 embedding_matrix 传递给这个对象训练时间。
我的代码紧跟Tensorflow 2.0 文档中的神经机器翻译示例。在这个例子中,我如何向编码器添加一个预训练的嵌入矩阵?编码器是一个对象。当我开始训练时,Tensorflow 图无法使用 GloVe 嵌入矩阵。我收到错误消息:
RuntimeError:无法在 Tensorflow 图函数中获取值。
该代码在训练过程中使用了 GradientTape 方法和教师强制。
我尝试修改编码器对象以在各个点包含 embedding_matrix,包括在编码器的init、call 和 initialize_hidden_state 中。所有这些都失败了。关于 stackoverflow 和其他地方的其他问题是针对 Keras 或更旧版本的 Tensorflow,而不是 Tensorflow 2.0。
machine-learning - 应用 GloVe 嵌入后如何创建词袋特征向量?
如果我有两条影评:
我对它们应用 GloVe 嵌入,我将得到两个向量,其中包含多个单词向量,如下所示:
基本上,评论中的每个单词都会被转换成一个 300 元素的浮点数数组。由于数组的长度可变,我不能将它们插入分类器。
我想过做某种词袋表示,但我不确定既然单词已经变成了数字,我将如何实现它。
python-3.x - 无法在 pandas 数据框中读取 glove.6B.300d.txt
我正在尝试将 glove.6B.300d.txt 文件读入 Pandas 数据框。(文件可以从这里下载:https ://github.com/stanfordnlp/GloVe )
以下是我得到的例外:
machine-learning - glove 和 word2vec 之间的主要区别是什么?
word2vec 和 glove 有什么区别?两种方法都可以训练词嵌入吗?如果是,那么我们如何同时使用两者?
r - 将 GloVe 预训练的嵌入作为矩阵读入 R
在 R 中工作。我知道预训练的 GloVe 嵌入(例如,“glove.6B.50d.txt”)可以在这里找到:https ://nlp.stanford.edu/projects/glove/ 。但是,我将这个文本文件读入 R 的运气为零,因此产品是由向量组成的词嵌入矩阵。有没有人成功地做到了这一点,无论是从保存的 .txt 文件还是从网站本身,如果是这样,该文本是如何转换为 R 中的矩阵的?
python - IMDB 数据集预处理不适合 GLoVe 词嵌入?
我想使用预训练的 GLoVe 向量、LSTM 和具有 sigmoid 激活的最终密集层在 IMDB 数据集上训练一个简单的情感分类器。
我遇到的问题是获得的准确率相对较低: 78% 。这低于使用可训练嵌入层而不是 GLoVe 向量时的 82% 准确度。
我认为这主要是因为数据集中只有67.9%的词是在GLoVe文件中找到的(我使用的是6B语料库)。
我查看了一些在 GLoVe 文件中找不到的单词,其中一些示例是:
祖母的双胞胎
基本上很多带引号的单词在 GLoVe 文件中都找不到。
我想知道是否需要对数据进行不同的预处理。目前,预处理由函数负责imdb.load_data()
。
我尝试使用更大的 42B 单词语料库,但这仅导致 76.5% 的覆盖率。
我想知道是否应该对数据进行不同的标记以获得良好的覆盖率。
代码是这样的:
load_embeddings.py
火车.py
nlp - word2vec、glove 和 elmo 有什么区别?
word2vec、glove 和 elmo 有什么区别?根据我的理解,它们都用于训练词嵌入,对吗?
nlp - when calculating the cooccurance of two words, do we sepate the sentences or linking all sentences?
For example, I get I document that contains 2 sentences: I am a person. He also likes apples. Do we need to count the cooccurrence of "person" and "He" ?