问题标签 [glove]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tensorflow - 使用 BERT 嵌入进行 Seq2Seq 模型构建
之前我使用 Glove embedding 构建了 seq2seq 模型进行文本摘要,现在我想用 BERT 更改 Glove 来看看模型的性能。为此,我使用了https://github.com/hanxiao/bert-as-service中的 bert-as-service 功能,但是将输入提供给模型与 Glove 失败的情况相同。如何编码这部分?
java - 特定主题的预训练向量、nlp、word2vec、词嵌入?
是否有任何针对特定主题的预训练向量?例如“java”,所以我想要文件中与 java 相关的向量。意思是如果我给输入继承,那么余弦相似度只显示多态性和其他相关的东西!我使用语料库作为 GoogleNews-vectors-negative300.bin 和 Glove 向量。仍然没有得到相关的词。
python - 建立 WORD2VEC 词汇表来表示感受
我正在使用 Word2vec(Gensim,在 python 中)来理解句子的含义(通过其中的每个单词)。我的目标是能够意识到这句话是否表明了说话者的感受。我在哪里可以找到这样的字典?例如,一本字典表示快乐,另一本字典表示悲伤。谢谢
python - 张量流中的 tf.matmul(X,weight) 与 tf.matmul(X,tf.traspose(weight))
在全连接层的标准 ANN 中,我们使用以下公式tf.matmul(X,weight) + bias
:我很清楚,因为我们使用矩阵乘法来连接输入和隐藏层。
但是在 GloVe 实现(https://nlp.stanford.edu/projects/glove/)中,我们使用以下公式进行嵌入乘法:tf.matmul(W, tf.transpose(U))
让我感到困惑的是tf.transpose(U)
部分。为什么我们使用tf.matmul(W, tf.transpose(U))
而不是tf.matmul(W, U)
?
nlp - 手套文本预处理
我注意到在技术中,人们将文本 URL、数字和日期转换为 . 手套数据集是否已针对这些占位符进行嵌入训练。我可以将它们直接输入数据集中吗?
nlp - 如何比较三个预训练模型的余弦相似度?
我有两个语料库——一个是所有女性领导人的演讲,另一个是男性领导人的演讲。我想检验一个假设,即一个语料库中两个单词之间的余弦相似度与另一个语料库中相同两个单词之间的余弦相似度显着不同。这样的 t 检验(或等效的)是否合乎逻辑且可能?
此外,如果两个语料库的余弦相似度不同,我如何检查第三个语料库中相同两个单词之间的余弦相似度是否与第一个或第二个语料库更相似?
nlp - NLP - 尝试根据输入维度寻找不同目标群体之间的相似之处
因此,我有一个数据集,其中包含一个描述列(IT 故障单描述)和一个目标列(故障单的分组,例如故障单属于组 0 或组 1 - 未提供组类型,例如访问问题)。
问题是:我有 45 个不同的目标变量 - 目标是第 0 组、第 1 组、......第 45 组。这些组中有一个相当长的尾巴,其中一些组的票数不到总票数的 0.1%。现在,不是直接将它们组合在一起形成一个组,而是想看看是否有任何方法可以根据 IT 故障单描述将这些较小的组与其他与他们“相似”的组组合起来。例如,如果较大的组有描述访问问题的票,而较小的组有与登录问题有关的票(取决于文本描述),我更愿意将这两个组放在一起。
我想为每个组创建一个单独的 Word2Vec 或 Glove 嵌入,但后来无法弄清楚如何找到这些向量之间的相似性。此外,创建 45 个不同的 Word2Vec 嵌入在计算上非常痛苦。所以我有点坚持这一点。关于如何解决这个问题的任何想法?任何帮助都会很棒
谢谢 !
python - Glove6b50d 解析:无法将字符串转换为浮点数:'-'
我正在尝试通过 Google Colab 解析来自 Kaggle 的 Glove6b50d 数据,然后通过 word2vec 进程运行它(为巨大的 URL 道歉 - 这是我找到的最快的链接)。但是,我遇到了一个错误,即未正确解析“-”标记,从而导致上述错误。
我试图以几种方式处理这个问题。我还研究了 load_word2vec_format 方法本身并试图忽略错误,但它似乎没有任何区别。我在第二行尝试了 map 方法,遵循这些链接的建议组合:[a]和[b]。这并没有修复或更改收到的错误消息(即删除它不会改变文本中的任何内容)。
根据下面的评论,我得到的确切错误如下:
使用仅包含“test -1.0 1.526 -2.55”或“- -1.0 1.526 -2.55”的文本文件,系统可以正常工作。此外,在源文本文件 (glove.6B.50d.txt) 中搜索出现的“-”也没有结果。我在 Windows 上,所以我通过执行:
调用print(gloveFile)
映射前和映射后调用都提供以下输出。请注意,我保留映射调用是为了完成我的工作,而不是为了它的效果。
如果我打印文件的前十行glove6b50d_word2vec.txt
,我会得到以下与 word2vec 格式匹配的文本。此外,如果我计算文档中字符串的出现次数" - "
,我找不到。
到目前为止,我的搜索方法显然无效。非常感谢一些帮助。
python - 下载glove_python包时出错
当我尝试通过以下方式下载 glove_python 包时
pip install glove_python
我收到以下错误:
我在网上找到了一些答案,声称解决方案可能是使用不同的 python 版本。我尝试使用 3.6.9、3.6.10 和 3.7.7 版本,但没有解决问题。
我还尝试更新 setuptools 包,但也没有帮助。
上述错误与 python 版本 3.6.9 和 setuptools 版本 46.2.0
安装出了什么问题?如何解决这个问题呢?