问题标签 [word-embedding]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tensorflow - 在测试期间重新加载 Keras Tokenizer
我在这里按照教程:(https://blog.keras.io/using-pre-trained-word-embeddings-in-a-keras-model.html)
但是,我修改了代码,以便能够通过h5py
. 因此,在运行训练脚本后,我的目录中生成model.h5
了一个。
现在,当我想加载它时,我的问题是我对如何重新启动Tokenizer
. 本教程有以下代码行:
但是假设,如果我model.h5
在不同的模块中重新加载,我需要创建另一个Tokenizer
来标记测试集。但是,新的Tokenizer
将适合测试数据,从而创建一个完全不同的词表。
因此,我的问题是:如何重新加载在Tokenizer
训练数据集上训练的数据?我是否在某种程度上误解了Embedding
Keras 中图层的功能?现在,我假设由于我们基于预先训练的词嵌入将某些词索引映射到它们相应的嵌入向量,因此词索引需要保持一致。fit_on_texts
但是,如果我们在测试数据集上执行另一个,这是不可能的。
谢谢你,期待你的回答!
nlp - 如何将词嵌入向量组合成一个向量?
我完全知道词嵌入(skip-gram, CBOW)的含义和方法。而且我知道,Google 有一个 word2vector API,通过获取单词可以生成向量。但我的问题是这样的:我们有一个包含主语、宾语、动词的子句......每个单词以前都由 Google API 嵌入,现在“我们如何将这些向量组合在一起以创建一个等于条款?” 示例:Clause: V= "dog beats man" 在谷歌嵌入词后,我们有 V1、V2、V3 分别映射到 dog、bites、man。我们知道: V = V1+ V2 +V3 我们如何提供 V?如果您以真实向量为例进行解释,我将不胜感激。
nlp - Word2Vec 在基于文本的抄袭检测中会比 WordNet 或任何其他词嵌入(如 GloVe、fastText 等)更有效吗?
我是学习Word2Vec的初学者,刚开始从网上做一些关于word2vec的研究。我已经完成了 Quora 和 StackOverflow 中的几乎所有问题,但没有从之前的问题中得到任何答案。所以我的问题是 - 1. 是否可以在抄袭检测中应用 word2vec?2. 如果没有。1 是可能的,那么 Word2Vec 在基于文本的抄袭检测中会比 WordNet 或任何其他词嵌入(如 GloVe、fastText 等)更有效吗?提前致谢。
tensorflow - 向量化单词时如何处理文本字符串中的数字?
如果我有一个要矢量化的文本字符串,我应该如何处理其中的数字?或者,如果我用数字和单词输入神经网络,我怎样才能将数字保持为数字?
我正计划制作一本包含我所有单词的字典(如此处所建议的)。在这种情况下,所有字符串都将变成数字数组。我应该如何处理数字字符?如何输出不将单词索引与数字字符混合的向量?
将数字转换为字符串会削弱我提供给网络的信息吗?
deep-learning - 词嵌入、查找表、词嵌入可视化
我需要问几个关于词嵌入的问题......可能是基本的。
- 当我们将单词的 one-hot 向量(例如 king )
[0 0 0 1 0]
转换为嵌入向量E = [0.2, 0.4, 0.2, 0.2]
时……结果词向量中的每个索引是否有任何重要性?例如E[1]
,这是 0.2.... 具体E[1]
定义的内容(尽管我知道它基本上是向另一个空间的转换).... 或词向量共同定义上下文但不是单独定义... - 与原始的 one-hot 向量相比,词向量的维度(减少或增加)如何重要?
- 我们如何根据嵌入层定义查找表?
- 查找表是一种随机生成的表,还是已经针对数据中的数据实例进行了单独训练,我们稍后会在神经网络操作中使用它?5- 有什么方法可以在隐藏层可视化嵌入向量(就像我们在基于图像的神经网络处理中所做的那样)?
提前致谢
vector - gensim 的 word2vec 与 tensorflow 向量表示有何不同?
我对 NLP 嵌入世界相当陌生。我使用了 gensim 的 word2vec 模型和 tensorflow 向量表示。
我有一个问题,在训练 gensim 的 word2vec 模型时,它需要对句子进行标记,而 tensorflow 需要一长串单词。训练上有什么不同。有质量影响吗?那么tensorflow如何满足skip-gram的需求,因为现在数据是一个单词列表,没有更多的句子。我指的是链接https://www.tensorflow.org/tutorials/word2vec上的 tensorflow 教程
如果我在这个领域的理解是错误的,请原谅我,如果我的理解被清除,将不胜感激。
感谢您的指导和帮助。
keras - keras 中的句子嵌入
我正在尝试使用 keras 中的句子嵌入进行简单的文档分类。
我知道如何将词向量输入网络,但我在使用句子嵌入时遇到了问题。就我而言,我有一个简单的句子表示(例如,沿轴添加词向量np.sum(sequences, axis=0)
)。
我的问题是,我应该Embedding
在下面的代码中用什么替换层来提供句子嵌入?
我试过Embedding
层(没有设置权重)和Input
层,但都给出了错误。
word-embedding - 如何embidingvector词embiding?
我读了一篇论文“在信息检索中集成和评估神经词嵌入”。
我试图理解源代码,并在打开名为:vectors_ap8889_skipgram_s200_w20_neg20_hs0_sam1e-4_iter5 的文件时
我找到了一个这样的词向量表示: Downtown "-0.465147 -0.049099 -0.023432 0.058986 -0.085395 -0.027324 -0.050315 ................... …………”
请; 我需要你解释一下这些值是什么意思,在语料库中指的是什么术语以及我如何获得它。
python - python word2vec 使用周围单词的上下文相似度
我想使用 w2v 制作的嵌入,以便在给定上下文(周围的词)的情况下获得最有可能的替代词,而不是提供单个词。
示例:句子 = '我想明天放学后去公园'
如果我想找到类似于“park”的候选者,通常我会利用 Gensim 模型中的相似性函数
并获得语义相似的词。然而,这可以给我类似于动词“公园”的词,而不是我所追求的名词“公园”。
有什么方法可以查询模型并将其周围的单词作为上下文以提供更好的候选者?
merge - 使用点积在 Keras 中使用合并层
我正在尝试将两层合并在一起。我的输入或我处理的数据如下所示:
每行代表一个单词序列,每个#,一个单词的特定索引。我有两个这样的数据,我试图将它们合并在一起,首先将它们嵌入到 16 维词向量中,然后使用点积。为此,我创建了两个分支来首先嵌入数据。然后我尝试合并它们。
当我尝试在 Keras 中使用此函数合并两者时:
我收到以下错误:
我相信矩阵乘法已执行,如文档中所述:
显然,我的这个样本的批量大小是 162。但是,这个错误仍然没有意义。如果合并层似乎已经完成了计算,它怎么能期望输入呢?
我将不胜感激任何帮助。谢谢!