问题标签 [word-embedding]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
190 浏览

python-3.x - 如何使用 Python + Tensorflow 一次批量/多行加载文本数据集?

所以,我正在尝试开始使用 Tensorflow 和 Python 中的文本分类等。

尝试此类任务的第一步是构建嵌入。因此,我开始使用 GloVe 预训练向量 840B 300d 集(大约 5 GB)。

尝试加载数据集本身时,我立即遇到了问题。我运行基于 CPU 的 Tensor-Flow 版本(没有 NVidia/GPU 的优势:()

它被卡住了很长时间,似乎没有解决方法。我尝试分阶段传递输入,如下所示。

文件已经被初始化为 file=('glove.840B.300d.txt','r') 并且可以工作。现在...

它成功执行,但是当我将该函数称为 scanlin(1) 时,它说

回溯(最后一次调用):文件“”,第 1 行,文件“”,第 8 行,scanlin 文件“”,第 8 行,ValueError:无法将字符串转换为浮点数:'-'

然后我尝试将“嵌入”设置为“embedding.append()”但同样的错误。

但是,当我在有限的范围内这样做时,它可以通过一些努力达到 n=50000 个单词。

以上工作,我可以加载每个单词的嵌入,但是如何更改它以顺序处理每次调用的输入数据并将其完全集成到加载数据集中?这是带有 Tensorflow 的 Ubuntu 16.04 上的 Python 3.5,我需要尽快处理更大的数据集。

0 投票
0 回答
1651 浏览

python - UnicodeDecodeError: 'utf8' codec can't decode byte 0xa3 in position 6898: invalid start byte-Reading file using Argument Parser in Python

我正在实现来自此链接的代码Glove implementation 我正在使用 Python 中的 ArgumentParser 从指定路径读取文件。

我在命令提示符下使用这个命令来传递参数

但我收到以下错误

我正在尝试读取的文件的屏幕截图text-corpus.txt 截图

0 投票
1 回答
433 浏览

python - 在手套实现中阅读词汇文件

我已经按照这个代码https://github.com/hans/glove.py为 BBCNews 数据集实现了手套模型 我已经形成了一个单个文件的语料库,单词之间有一个空格。生成了词汇文件。你能解释一下吗怎么读?

文本语料库

词汇

0 投票
0 回答
286 浏览

python - 读取 Glove 词嵌入实现的文本语料库中的问题

我正在尝试使用此链接https://github.com/hans/glove.py/blob/master/glove.py中提到的 Glove 实现来训练我的文本语料库。我创建了一个由 a 分隔的单词的文本语料库单个空格。文件大小为 3.6 GB。当我尝试加载文件时出现此错误。

帮我阅读文件。谢谢

0 投票
1 回答
211 浏览

machine-learning - 从公开可用的词嵌入中提取更有意义的词

我有两个公开可用的词嵌入,例如 Glove 和 Google Word2vec。然而,在他们的词汇中,有太多拼写错误的词或垃圾词(例如,##AA##、adirty 等)。为了避免这个词,我想提取频繁词(例如,前 50000 个词),因为我认为相对高频词具有范式。

所以,我想知道是否有办法在上述两个预训练的词嵌入中找到词频。如果没有,我想知道是否有一些技术可以排除这个词。

0 投票
1 回答
790 浏览

python-3.x - 如何在 Keras 中使用 Embedding() 和 3D 张量?

我有一个股票价格序列列表,每个序列有 20 个时间步长。这是一个二维形状数组(total_seq, 20)。我可以将其重塑为 (total_seq, 20, 1) 以连接到其他特征。

我还有每个时间步长 10 个单词的新闻标题。Tokenizer.texts_to_sequences()所以我有来自和的新闻标记的 3D 形状数组 (total_seq, 20, 10) sequence.pad_sequences()

我想将嵌入的新闻连接到股票价格并进行预测。

我的想法是新闻嵌入应该返回形状的张量 (total_seq, 20, embed_size),以便我可以将它与形状的股票价格 (total_seq, 20, 1) 连接,然后将其连接到 LSTM 层。

为此,我应该使用 Embedding() 函数将形状 (total_seq, 20, 10) 的新闻嵌入转换为 (total_seq, 20, 10, embed_size)。

但在 Keras 中,Embedding() 函数采用 2D 张量而不是 3D 张量。我该如何解决这个问题?

假设 Embedding() 接受 3D 张量,然后在我得到 4D 张量作为输出后,我将通过使用 LSTM 删除第 3 维,仅返回最后一个单词的嵌入,因此形状 (total_seq, 20, 10, embed_size) 的输出将被转换到 (total_seq, 20, embed_size)

但我会再次遇到另一个问题,LSTM 接受 3D 张量而不是 4D 所以

如何解决嵌入和 LSTM 不接受我的输入的问题?

0 投票
0 回答
920 浏览

python-3.x - TensorBoard 嵌入可视化工具不显示标签

我正在尝试使用TensorBoard 嵌入可视化器来表示我刚刚生成的一组 7307 个动词嵌入,但是当我选择启用 3d 标签模式时,绘制的点会消失。

这是我的代码:

我要使用的元数据仅包含嵌入的名称(在我的例子中是动词)。它们与其他列表一起存储在字典中的列表中,因此我使用此函数将它们加载到 tsv 文件(所需格式):

然后我执行的代码是:

最后,我通过命令访问 TensorBoard tensorboard --logdir=LOG_DIR

生成的projector_config.pbtxt文件(也在 中LOG_DIR)具有以下内容:

我猜这些点消失了,因为我没有进行正确的元数据关联,但我看不到错误。它也会在 Chrome 和 Firefox 上崩溃。

0 投票
1 回答
235 浏览

nlp - 通过寻找词的线性代数结构来评估 Word2Vec 模型

我已经在 python 中使用 gensim 库构建了 Word2Vecmodel。我想按如下方式评估我的词嵌入

如果 A 与 B 相关,C 与 D 相关,那么 A-C+B 应该等于 D。例如,“India”-“Rupee”+“Japan”的嵌入向量算术应该等于“日元”。

我已经在 gensim 的内置函数中使用过 predict_output_word,most_similar 但无法获得预期的结果。

请帮助我根据上述标准评估我的模型。

0 投票
2 回答
9222 浏览

machine-learning - 举例说明:在 keras 中嵌入层的工作原理

我不明白 Keras 的嵌入层。虽然有很多文章解释它,但我仍然感到困惑。例如,下面的代码来自于 imdb 情感分析:

在这段代码中,嵌入层到底在做什么?嵌入层的输出是什么?如果有人可以用一些例子来解释它,那就太好了!

0 投票
0 回答
4744 浏览

c - pthread.h 在命令提示符下使用 MinGW 没有文件或目录编译错误

我正在从这个链接https://github.com/stanfordnlp/GloVe/tree/master/src实现手套词嵌入。在编译 glove.py 时,我遇到了这个错误。

我正在使用 Windows 10。我安装了 pthreads win32 库,但我的操作系统是 64 位,我再次遇到了类似的问题。我下载了 minGW-w64 并编译了。这次我收到了这个错误 pthread 问题

如何解决此错误