问题标签 [fasttext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1963 浏览

fasttext - FastText 量化文档不正确?

如文档中所示,我无法运行 FastText 量化。具体来说,如备忘单页面底部所示:

https://fasttext.cc/docs/en/cheatsheet.html

当我尝试在训练有素的模型“model.bin”上运行量化时:

将以下错误打印到外壳:

我已经使用最新代码(2018 年 9 月 14 日)和旧代码(2018 年 6 月 21 日)的版本重现了这个问题。由于记录的命令语法不起作用,我尝试添加一个输入参数:

其中 [file] 是我的训练数据或训练模型。不幸的是,这两次尝试都导致了分段错误,而 FastText 没有错误消息。

量化 FastText 模型的正确命令语法是什么?此外,是否可以在一次 FastText 运行中同时训练和量化模型?

0 投票
0 回答
420 浏览

r - 在 R 中使用 fastrtext 加载预训练的词向量

我想在 R 中使用 FastText 预训练的词向量这应该可以通过“fastrtext”库实现,但我在加载文件时遇到了问题。

如何使用 R 读取 .vec 文件?
如何将 .bin 文件加载到 R 中?

对于我尝试过的 .bin 文件:

model$load(path) 中的错误:fastrtext 中的错误。退出代码:1

显然,这不是要走的路。有任何想法吗?

0 投票
1 回答
1756 浏览

spacy - 如何在 RASA NLU 中使用印地语模型?

我已经使用带有 spacy 后端的 FastText 构建了我的印地语模型。我按照本教程使用 FastText 构建我的模型。

这个网址

我还通过以下命令将我的模型与 spacy 链接

模型链接成功,您可以查看下图 在此处输入图像描述

现在我没有找到任何使用印地语的帮助,比如我需要使用什么样的配置文件,在哪里导入印地语模型以及现在如何继续?我还有一个问题,比如我们的 data.json 文件在印地语中的外观以及我们将如何使用实体和意图,实体和意图的名称也应该是印地语还是英文?有人可以帮助进一步处理吗?我被困在这里。我必须仅使用 RASA Stack 以印地语构建 ChatBot。

提前致谢....

0 投票
1 回答
1295 浏览

python - 归一化模型生成的 Fasttext 词嵌入向量

我目前正在使用 FastText 获取一些输入文本数据的词嵌入,以便捕捉它们之间的相似性,并将这些嵌入作为 NER 任务的神经网络的输入。我首先尝试使用 fastText .vec 文件,并且能够从中获得良好的相似性结果,然后我尝试使用 .bin 模型文件,以便我也可以从词汇外术语中获取嵌入但我注意到从 .vec 和 .bin 文件生成的向量是不同的。.vec 文件包含裁剪到 [-1,1] 范围内的嵌入,而 .bin 文件中包含的嵌入则不是这样。使用 .bin 文件我得到了非常糟糕的结果,所以我试图不明白这是否是由于这些向量(.bin)没有标准化。

有没有一种使用 Python 在 [-1, 1] 范围内标准化这些向量的好方法?

提前致谢。

0 投票
0 回答
94 浏览

python-3.x - fastText 快速入门指南

我正在阅读最近的书 fastText 快速入门指南,我在书中运行了代码。当我运行此代码时

没关系,但是当我运行第二个代码时,

它说 yelp_review.v1.csv 没有找到或没有这样的文件。为什么会这样?我想当第一个代码运行时,该文件应该作为输出文件保存在 data/yelp 中。有人可以帮我理解吗?

这是python代码。

0 投票
0 回答
760 浏览

python - Fasttext UnicodeDecode 问题

我正在尝试加载 fasttext 文件以第一次将其用作单词嵌入。我有这个:

我还尝试了这里描述的内容:https : //datascience.stackexchange.com/questions/20071/how-do-i-load-fasttext-pretrained-model-with-gensim 我下载了.bin文件的结果仍然相同kaggle(https://www.kaggle.com/kambarakun/fasttext-pretrained-word-vectors-english)但我仍然遇到问题: 'utf8' codec can't decode byte 0xba in position 0: invalid start byte 我只想使用 .bin 文件而不是 .vec 文件,因为它需要的更少时间。

0 投票
0 回答
1243 浏览

python - gensim 错误:“NoneType”对象在 Fasttext 训练期间不可下标

在 Python 3.7 中实现Fasttext时,我面临一个与 相关的意外场景Exception in thread,这导致

NoneType' 对象不可下标

完整堆栈跟踪的错误(截图)如下: 在此处输入图像描述

gensim python中的这个问题到底是什么?

我试过的代码:

注意:该模型完美运行,当我评论

上面显示的代码中的行。

0 投票
1 回答
505 浏览

python - 如何在 gensim 和 fasttext 中为 word2vec 准备数据?

我想训练 word2vec 和 fasttext 来获取我拥有的特定数据集的向量。

我的模型应该将什么作为输入?

我的文件是这样的:

现在,我应该如何准备我的数据以供 word2vec 运行?word2vec 模型是否考虑了句子间的相似性,即我是否应该不明智地准备语料库句子。

0 投票
0 回答
1155 浏览

python - Python - wget 后的 Google Colab 更改目录

在 Google Colaboratory 中,我使用 !wget 命令下载了 fasttext 模块。

它工作正常。“fastText-0.1.0”文件解压成功。然后:

我收到此错误:

/bin/bash:第 0 行:cd:fastText-0.1.0:没有这样的文件或目录

我该如何解决?

0 投票
1 回答
723 浏览

facebook - Facebook 的 fasttext 库如何处理输入中的数字数据以进行词向量化?

我正在使用 Facebook 的 Fasttext 来执行文本分类。我想知道 fasttext 库如何处理作为词向量化输入提供的文本字符串中的数字。

  1. 在创建词向量之前,fasttext 是否将每个数字类型转换为字符串?

    例如 1124 到“ 1124 ”

  2. 或者在训练之前在后台执行任何其他转换/预处理?

    例如 1124 到“一一二四”

如果我的 fasttext 输入文本包含数字,那么处理数字数据的最佳方法应该是什么?