问题标签 [glove]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
308 浏览

r - 手套使用中的预初始化权重 手套中的初始参数 text2vec fit_transform

我想使用fit_transform的初始参数预初始化手套、词向量和偏差。函数状态的文档作为命名列表传递“w_i,w_j,b_i,b_j”值 - 初始词向量和偏差。

结果我 fit_transform 并提取它们。因此,我创建了一个新的手套实例并将提取的数据传递给一个新的手套实例(使用初始参数)。尽管我希望从第一个 fit_transform 到达的位置“继续”,但成本总是会激增,这表明我没有以正确的方式进行操作,或者它不受支持。

我尝试在 GloVe$new( 仅在 glove_model$fit_transform 和两者上传递初始参数。每当我使用初始参数时,错误/成本都会爆炸。

第一遍 (B.) 的输出是

在第二次通过时,成本从 0.0574 爆炸到 1062

我预计成本将从 0.0574 恢复,但不是:(。

文档中所述的参数与源代码匹配

非常感谢您的帮助

0 投票
0 回答
305 浏览

lstm - 带手套的 Bi-LSTM - 词形还原问题

尝试使用 keras 在 Python 中实现带有手套嵌入的双向 LSTM 模型。模型架构如下:

在此处输入图像描述

该模型在没有对输入数据进行任何预处理的情况下运行时运行良好。下图显示了模型的输出:

在此处输入图像描述

作为预处理的一部分,输入数据使用 Spacy 进行词形还原,然后传递到模型中。

词形还原预处理代码:

以下方法是否适合模型:

但是该模型为每个时期给出如下输出(在训练和测试数据的词形化之后):

在此处输入图像描述

请帮助解释为什么模型会像上面那样通过词形还原来运行。无论有没有词形还原,模型摘要看起来都是一样的。

0 投票
1 回答
476 浏览

python - 将 GloVe 向量导入 gensim。UnicodeDecodeError:“utf-8”编解码器无法解码位置 0 的字节 0xe6:无效的继续字节

我使用我自己的语料库使用https://github.com/stanfordnlp/GloVe/blob/master/demo.sh提供的代码生成了 GloVe 向量。所以,我有 .bin 文件和 .txt 文件向量。我正在尝试将这些文件导入到 gensim 中,这样我就可以像处理 word2vec 向量一样使用它们。

我尝试使用二进制格式和文本文件格式更改加载,但最终得到一个酸洗错误:

我试过忽略 unicode 错误,但没有用。我仍然收到 unicode 错误。

这就是我现在的代码:

这是我不断收到的错误消息:

酸洗错误是这样的:Unpickling Error while using Word2Vec.load()

文本文件格式

0 投票
2 回答
2915 浏览

pytorch - 为 GloVe 使用 torch.nn.Embedding:我们应该微调嵌入还是直接使用它们?

虽然迁移学习/微调最近的语言模型,例如 BERT 和 XLNET,是迄今为止非常普遍的做法,但这对 GloVe 来说如何?

基本上,当使用 GloVe 获得下游 NN 可以使用的密集向量表示时,我看到了两个选项。

1) 微调 GloVe 嵌入(在 pytorch 术语中,启用渐变)

2) 只使用没有梯度的嵌入。

例如,给定 GloVe 的嵌入矩阵,我会

最好的做法是单独使用 GloVe 来获得向量表示(并且只训练密集层和可能的其他层),还是也可以微调嵌入矩阵?

0 投票
1 回答
69 浏览

neural-network - 相关的 GloVe 矢量文件(例如 glove.6B.50d.txt)中的“dont”和“isnt”是什么?

我在从https://nlp.stanford.edu/projects/glove/下载的矢量文件 glove.6B.50d.txt 中找到了这两个词“dont”和“isnt” 。我想知道它们最初是否是“不”和“不是”。这可能取决于他们使用的 sentence_to_word 解析算法。如果有人熟悉,请确认是否是这种情况。

第二个问题是,这是否是处理诸如“不”、“不是”、“没有”等单词的撇号的常用方法。即过滤器用一个空字符串替换那个撇号,这样“don”和“t”就变成了一个词。

最后,我也不确定 GloVe 是否带有 API 来进行 sentence_to_word 解析,以便您可以与研究人员最初所做的保持一致。

0 投票
1 回答
186 浏览

python - 我已经在我的 google colab 中下载了一个解压手套文件,但我仍然无法访问它

当我尝试访问以运行此代码时出现此错误:

FileNotFoundError
Traceback (最近一次调用最后一次) in () ----> 1 word_embedding_matrix = np.load(open("word_embedding_matrix.npy", 'rb'))

FileNotFoundError:[Errno 2] 没有这样的文件或目录:'word_embedding_matrix.npy'

0 投票
0 回答
1208 浏览

python - 成功安装手套后导入错误

我已经成功安装了手套。pip3 install https://github.com/JonathanRaiman/glove/archive/master.zip从命令行运行后 ,我收到以下消息

但是,当尝试import glove在我的 python shell 中时,我得到 module not found 错误

这个问题的任何修复?

0 投票
1 回答
207 浏览

python-3.x - 最佳 Python GloVe 词嵌入包

我可以使用的最好的 Python GloVe 词嵌入包是什么?我想要一个可以帮助修改共现矩阵权重的包。如果有人可以提供一个例子,我将不胜感激。

谢谢,穆罕默德

0 投票
1 回答
288 浏览

word2vec - 是否有任何能够检测短语的预训练 word2vec 模型

是否有任何预训练的 word2vec 模型,其数据包含单个单词或多个合并在一起的单词,例如“drama”、“drama_film”或“africanamericancommunity”。是否有任何这样的模型经过大量数据集训练,例如为 gloVE 训练的数据集?

0 投票
0 回答
63 浏览

python-3.x - 系统错误:解析时出现意外的 EOF

with open("glove.6B.50d.txt",encoding='utf8') as f: for line in f: values = line.split() word = values[0] vector = np.asarray(values[1:], "float32") embeddings_dict[word] = vector 这是我执行的代码,

运行这部分代码时出现错误。尝试了一些现有的解决方案,但都没有帮助

这是我在执行上述代码时遇到的错误