问题标签 [word2vec]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在 gensim python 中使用 google word2vec .bin 文件
我正在尝试通过将预训练的 .bin 文件从 google word2vec 站点(freebase-vectors-skipgram1000.bin.gz)加载到 word2vec 的 gensim 实现中开始。模型加载良好,
使用 ..
并创建一个
但是当我运行最相似的功能时。它无法在词汇表中找到单词。我的错误代码如下。
有什么想法我哪里出错了吗?
python - 自然语言处理:word2vec 的文本语料库格式
我在大型维基百科数据集http://danielfrg.github.io/blog/2013/09/21/word2vec-yhat/上找到了一个使用 word2vec 的教程
我想构建一个类似于 Daniel 的 yhat rest API在他的教程中演示。
今天我整理了一些我想分析的西班牙报纸文章。我检索我的数据的网站非常定期地格式化它的文章,所以我有 1000 篇文章存储为字符串,例如
我对 Python 很满意,并希望使用教程中列出的 Python 包装器: https ://github.com/danielfrg/word2vec
如何将我的语料库加载到 word2vec 中?现在我有一个字符串数组。
目前我的语料库适合记忆。word2vec 仍然是正确的工具吗?
word2vec - 如何使用 word2vec 通过给出 2 个单词来计算相似度距离?
Word2vec 是谷歌提供的用于计算单词距离的开源工具。它可以通过输入一个单词并根据相似度输出排序的单词列表来使用。例如
输入:
输出:
但是,我需要做的是通过给出 2 个单词来计算相似度距离。如果我给出“法国”和“西班牙”,我怎么能在不阅读整个单词列表的情况下只给出“法国”来获得 0.678515 的分数。
theano - 如何使用 word2vec 工具计算语言模型?
我正在尝试建立一个神经网络语言模型,似乎 Mikolov 等人的 word2vec 工具是一个很好的工具。我试过了,但它只会产生单词表示。有人知道我如何通过该工具或任何其他合理的深度学习框架生成语言模型吗?
gensim - 更新 gensim word2vec 模型
我在 gensim 中有一个 word2vec 模型,训练了超过 98892 个文档。对于句子数组中不存在的任何给定句子(即我训练模型的集合),我需要用该句子更新模型,以便下次查询它会给出一些结果。我这样做是这样的:
并将其打印为日志:
现在,当我用类似的 new_sentence 查询大多数肯定(as model.most_similar(positive=new_sentence)
)时,它会给出错误:
这表明“冷”这个词不是我训练这件事的词汇的一部分(我是对的)吗?
所以问题是:如何更新模型,以便给出给定新句子的所有可能相似之处?
python - 如何使用 gensim 的 word2vec 模型与 python 计算句子相似度
根据Gensim Word2Vec,我可以使用 gensim 包中的 word2vec 模型来计算两个单词之间的相似度。
例如
然而,word2vec 模型无法预测句子相似度。我在 gensim 中找到了具有句子相似性的 LSI 模型,但是,它似乎不能与 word2vec 模型相结合。我拥有的每个句子的语料库长度都不是很长(少于 10 个单词)。那么,有没有什么简单的方法可以实现目标呢?
gensim - Word2Vec:使用的窗口大小的影响
我正在尝试在非常短的短语(5 克)上训练 word2vec 模型。由于每个句子或示例都很短,我相信我可以使用的窗口大小最多为 2。我试图了解这么小的窗口大小对学习模型的质量有何影响,以便我能够理解我的模型是否学到了一些有意义的东西。我尝试在 5-gram 上训练 word2vec 模型,但看起来学习的模型不能很好地捕捉语义等。
我正在使用以下测试来评估模型的准确性: https ://code.google.com/p/word2vec/source/browse/trunk/questions-words.txt
我使用 gensim.Word2Vec 来训练模型,这是我的准确度分数的片段(使用 2 的窗口大小)
我还尝试运行此处概述的 demo-word-accuracy.sh 脚本,窗口大小为 2,但准确性也很差:
然而 word2vec 网站声称它可以在这些任务上获得约 60% 的准确度。因此,我想深入了解这些超参数(如窗口大小)的影响以及它们如何影响学习模型的质量。
deep-learning - word2vec :以不区分大小写的方式查找相似的单词
我可以访问我感兴趣的文本语料库上的词向量。现在,我面临的问题是这些向量区分大小写,例如,“Him”与“him”不同,与“HIM”不同。
我想找到与“他”这个词最相似的词是不区分大小写的方式。我使用与 Google软件包distance.c
捆绑在一起的程序。word2vec
这是我面临问题的地方。
我是否应该将“他他他”作为参数传递给distance.c
可执行文件。这将返回关闭到 3 个单词的单词发送。
或者我应该distance.c
使用 3 个参数(“Him”、“him”和“HIM”)中的每一个单独运行程序,然后以合理的方式将这些列表放在一起以得出最相似的单词?请建议。
nlp - 理解 word2vec 文本表示
我想distance
在我的程序中实现 word2vec 的一部分。不幸的是,它不在 C/C++ 或 Python 中,但首先我不理解非二进制表示。这就是我获取文件的方式
./word2vec -train text8-phrase -output vectorsphrase.txt -cbow 0 -size 300 -window 10 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 0
当我检查法国的vectorsphrase.txt文件时,我得到的是:
因此,除了余弦值之外,我什么也没有得到,当我跑完距离并输入 france 时,我得到了
字余弦距离
那么,根据给定的概率,我如何将它与其他单词联系起来,我如何知道哪个属于哪个?
nlp - Gensim 在维基百科上训练 word2vec - 预处理和参数
我正在尝试gensim
使用意大利维基百科“ http://dumps.wikimedia.org/itwiki/latest/itwiki-latest-pages-articles.xml.bz2 ”来训练 word2vec 模型
但是,我不确定这个语料库的最佳预处理是什么。
gensim
模型接受标记化句子的列表。我的第一次尝试是只使用WikipediaCorpus
来自gensim
. 这会提取每篇文章,删除标点符号并在空格上拆分单词。使用这个工具,每个句子都会对应一个完整的模型,我不确定这个事实对模型的影响。
在此之后,我使用默认参数训练模型。不幸的是,经过培训,我似乎无法获得非常有意义的相似之处。
维基百科语料库上最适合此任务的预处理是什么?(如果这个问题太宽泛,请通过指向相关教程/文章来帮助我)
这是我第一次试用的代码: