问题标签 [glove]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 改进现有的基本 GloVe 模型
我正在使用 GloVe 作为我研究的一部分。我已经从这里下载了模型。我一直在使用 GloVe 进行句子分类。我正在分类的句子特定于特定领域,比如一些 STEM 主题。但是,由于现有的 GloVe 模型是在通用语料库上训练的,因此它们可能无法为我的特定任务产生最佳结果。
所以我的问题是,我将如何加载重新训练的模型并在我自己的语料库上对其进行更多的重新训练以学习我的语料库的语义?如果可能的话,这样做是有好处的。
python-3.x - 手套火炬加速
我正在尝试在pytorch
. 这是我第一次使用pytorch
,我认为我的实现可能不是很有效。除了明显的(矢量化for loop
每批运行的)之外,还有什么可以让我加快速度吗?我发现那个self.optimizer.step()
特别贵。
nlp - 如何在我自己的语料库上训练 GloVe 算法
我试图遵循这一点。
但是有些我浪费了很多时间却没有任何用处。
我只想GloVe
在我自己的语料库(~900Mb corpus.txt 文件)上训练一个模型。我下载了上面链接中提供的文件并使用cygwin
(编辑 demo.sh 文件并将其更改为VOCAB_FILE=corpus.txt
. 我应该CORPUS=text8
保持不变吗?)对其进行编译,输出为:
- cooccurrence.bin
- cooccurrence.shuf.bin
- 文本8
- 语料库.txt
- 矢量.txt
如何使用这些文件将其作为GloVe
模型加载到 python 上?
neural-network - 预训练的 GloVe 矢量文件(例如 glove.6B.50d.txt)中的“unk”是什么?
我在从 https://nlp.stanford.edu/projects/glove/下载的手套矢量文件 glove.6B.50d.txt 中找到了“unk”标记。其值如下:
它是用于未知单词的标记还是某种缩写?
c - Glove.c 中的分段错误(核心转储)
我正在尝试在一个相当大的数据集、最新的 wikidump(22G txt 文件)上训练Glove https://github.com/stanfordnlp/GloVe/blob/master/src/glove.c 。我正在训练的词汇总数为 170 万。每个文件(shuffle、cooccur、vocab_count)直到 glove 运行顺利,没有任何内存错误。(我的内存 = 64G)
但是,当我跑 glove 时,我得到“分段错误(核心转储)”。
我也尝试了不同的线程数:1、2、4、8、16、32 等。没有运行。有人可以指点我在哪里看吗?
更新
我将词汇量从 170 万个减少到 100 万个,glove.c 运行时没有出现“分段错误”错误。所以是内存错误。但我很想学习如何解决这个错误并能够在更大的数据集上训练模型!任何评论都将受到高度重视。谢谢。
nlp - 在 word2vec 或 Glove 中添加额外的单词(可能使用 gensim)
我有两个预训练的词嵌入:Glove.840b.300.txt
和custom_glove.300.txt
一个是斯坦福预训练的,另一个是我训练的。两者都有不同的词汇集。为了减少 oov,我想将未出现在 file1 但确实出现在 file2 中的单词添加到 file1。我如何轻松做到这一点?
这就是我在 gensim 3.4.0 中加载和保存文件的方式。
tensorflow - 使用 TensorFlow Transform 有效地将标记转换为词向量
我想在训练、验证和推理阶段使用 TensorFlow Transform 将标记转换为词向量。
我遵循了这个StackOverflow 帖子并实现了从标记到向量的初始转换。转换按预期工作,我获得EMB_DIM
了每个令牌的向量。
当我重构代码以作为 TFX 变换图运行时,我收到以下错误ConversionError
。
错误信息
问题
- 为什么 TF 变换步骤需要额外的转换/转换?
- 这种将标记转换为词向量的方法可行吗?词向量在内存中可能有数 GB。Apache Beam 如何处理向量?如果 Beam 在分布式设置中,是否需要工人数量
N x vector memory
?N
python - 如何在数据帧训练的张量上使用 glove 从词嵌入中形成句子嵌入?
我正在使用包含事件信息片段的数据集。我的数据框看起来类似于:
我的工作是根据它们的含义对这些事件进行聚类。我不知道应该有多少事件,这是无监督学习的工作。
为了继续进行 DBSCAN 聚类,我使用 GloVe(而不是 doc2Vec 等)将数据帧中的所有单词嵌入到向量中。
您如何将词向量转换为句子向量以进行聚类?
我已经阅读了这篇文章以及其他一些帖子和论文,它们使用了其他句子嵌入算法,而不是 GloVe 词嵌入。此外,InferSent和Google 通用句子编码器等一些存储库也非常好,但是它们使用的是预训练的张量。
鉴于这些限制,我必须使用 GloVe 和数据帧训练的张量而不是预训练的张量,我怎样才能从词向量形成句子向量?
machine-learning - 如何使用python通过word2vec转换文本文件
我是 python 语言、自然语言处理、深度学习、神经网络的初学者。我想执行一个程序,通过在 python 中使用 word2vec 将文本文件转换为矢量。有人请帮助我