问题标签 [glove]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 无法将某个单词映射到向量
我在使用GloVe实现词到向量映射时遇到了麻烦。我的代码似乎工作正常,但有一个奇怪的问题:尝试将一个特定的单词 - 'the' 映射到它的向量表示时出现错误。我不知道为什么会这样。
这是我读取 GloVe 文件的代码:
如您所见,上面的函数返回变量“word_to_vec_map”,它应该将训练集中的单词映射到它们的 GloVe 表示。
这是训练集中的一个片段:
似乎我能够使用 word_to_vec_map 映射单词:
但是之后:
有谁知道为什么会这样?为什么我不能映射这个特定的词?
vector - 如何将 BERT 词嵌入保存为 .vec,类似于 word2vec
我想使用生成的 BERT 词嵌入作为在 Torchtext 中构建词汇的向量 我可以加载诸如 GloVe 或 word2vec 之类的向量,但我不知道如何将 BERT 中的词嵌入保存为 Torchtext 词汇可接受的格式
当我尝试这段代码时
我收到此错误:
nlp - GloVe 词向量余弦相似度 - “盟友”比“朋友”更接近“强大”
当我使用 GloVe 词向量在 python 3.6 中测试“ally”和“friend”这两个词的余弦相似度(使用验证为正确实现的函数)时,余弦相似度为
0.6274969008615137
. 然而,当我测试“盟友”和“朋友”时,结果是0.4700224263147646
.
似乎“ally”和“friend”这两个名词作为同义词给出,应该比“ally”和“powerful”这两个名词和一个几乎不相关的词具有更大的余弦相似度。
我是否误解了词向量或余弦相似度的概念?
python - 使用 XLNet 获取词嵌入?
您好,我一直在尝试使用新颖的 XLNet 上下文提取词嵌入,但没有运气。
使用 TPU 在 Google Colab 上运行
我想指出,当我使用 TPU 时出现此错误,因此我切换到 GPU 以避免该错误
AttributeError:模块“xlnet”没有属性“XLNetConfig”
但是,当我使用 GPU 时出现另一个错误
属性错误:use_tpu
我将在下面发布整个代码:我使用一个小句子作为输入,直到它起作用,然后我切换到大数据
主要代码:
在主要代码之前我正在从 GitHub 克隆 Xlnet 等等(我也会发布它)
nlp - 我们可以使用迁移学习比较来自不同模型的词向量吗?
我想在不同的语料库上训练两个 word2vec/GLoVe 模型,然后比较单个单词的向量。我知道这样做是没有意义的,因为不同的模型从不同的随机状态开始,但是如果我们使用预先训练的词向量作为起点呢?我们是否可以假设这两个模型将通过结合各自的特定领域知识继续建立在预训练向量的基础上,而不是进入完全不同的状态?
试图找到一些讨论这个问题的研究论文,但找不到。
python - “Doc2Vec”对象没有属性“get_latest_training_loss”
我对 doc2vec 很陌生,然后我做了一些小研究,发现了一些东西。这是我的故事:我正在尝试学习使用 doc2vec 240 万个文档。起初,我只尝试使用包含 12 个文档的小型模型来这样做。我用第一个文档的推断向量检查了结果,发现它确实与第一个文档相似,余弦相似度为 0.97-0.99。我觉得这很好,即使当我尝试输入一个完全不同单词的新文档时,我得到了 0.8 度量相似度的高分。然而,我已经把它放在一边,并试图继续构建包含 240 万个文档的完整模型。在这一点上,我的问题开始了。结果完全是胡说八道,我在 most_similar 函数中收到相似度为 0.4-0.5 的结果,这与检查的新文档完全不同。我试图调整参数,但还没有结果。我还尝试从小型和大型模型中消除随机性,但是,我仍然得到不同的向量。然后我尝试在每个时期使用 get_latest_training_loss 来查看每个时期的损失如何变化。这是我的代码:
我知道这段代码有点笨拙,但在这里使用它只是为了跟踪损失。我收到的错误是:
我试着看模型。并自动补全,发现确实没有这个功能,找了个类似名字training_loss的东西,却给了我同样的错误。
这里有人可以给我一个想法吗?
提前致谢
keras - Should the vocabulary be restricted to the training-set vocabulary when training an NN model with pretrained word2vec like GLOVE?
I wanted to use word embeddings for the embedding Layer in my neural network using pre-trained vectors from GLOVE. Do I need to restrict the vocabulary to the training-set when constructing the word2index dictionary? Wouldn't that lead to a limited non-generalizable model? Is considering all the vocabulary of GLOVE a recommended practice?
python - 我们是否需要 GPU 系统来训练深度学习模型?
我创建了一个带有预训练 100D 手套嵌入的编码器-解码器模型,以创建一个抽象的文本摘要器。数据集有4300
文章,它的摘要数据。词汇量48549
用于文章和19130
摘要。Total memory size of input, output variables = 7.5Gb
以下是基本的编码器-解码器模型:
当我对整个数据进行训练时,spyder 会消耗 99% 的内存并且系统会停止。
我的系统配置如下:
此外,我想 -
- 向模型添加更多数据和层
- 添加注意力层
- 实现伯特
请提出解决方案或合适的系统配置。
python - 嵌入和聚类特定文本(使用 GloVe)
编辑2:我对我的问题想得更好,并意识到这是一种概括的方式,这只是一个基本的问题;
从 Glove 文件 (glove.6B.300d.txt) 创建一个新数组,其中仅包含我在文档中拥有的单词列表。
我知道这实际上与这个特定的 GloVe 文件无关,我应该学习如何为任何两个单词列表做这件事......
我假设我只是不知道如何正确地查找它以学习如何执行这部分。即我应该寻找什么库使用/功能/buuzzwords。
编辑 1:我正在添加适用于整个 GloVe 库的代码;
原始问题:
假设我有一个特定的文本(比如 500 个单词)。我想做以下事情:
- 创建此文本中所有单词的嵌入(即只有这 500 个单词的 GloVe 向量列表)
- 集群它(*这个我知道怎么做)
我该怎么做这样的事情?
python - 编码“UTF-8”在 macOS 中引发异常
我正在尝试读取 GloVe 文件:glove.twitter.27B.200d.txt
. 我有下一个函数来读取文件:
问题是我得到下一个错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xea in position 0: invalid continuation byte
我试过了,latin-1
但没有用。向我抛出下一个错误:
ValueError: could not convert string to float: 'Ù\x86'
我也试过'rt'
用 'r'
and改变'rb'
。我认为是 macOS 的问题,因为在 Windows 中没有给我这个错误。有人可以帮我知道为什么我无法阅读此文件。