问题标签 [fasttext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
fasttext - FastText 量化文档不正确?
如文档中所示,我无法运行 FastText 量化。具体来说,如备忘单页面底部所示:
https://fasttext.cc/docs/en/cheatsheet.html
当我尝试在训练有素的模型“model.bin”上运行量化时:
将以下错误打印到外壳:
我已经使用最新代码(2018 年 9 月 14 日)和旧代码(2018 年 6 月 21 日)的版本重现了这个问题。由于记录的命令语法不起作用,我尝试添加一个输入参数:
其中 [file] 是我的训练数据或训练模型。不幸的是,这两次尝试都导致了分段错误,而 FastText 没有错误消息。
量化 FastText 模型的正确命令语法是什么?此外,是否可以在一次 FastText 运行中同时训练和量化模型?
r - 在 R 中使用 fastrtext 加载预训练的词向量
我想在 R 中使用 FastText 预训练的词向量。这应该可以通过“fastrtext”库实现,但我在加载文件时遇到了问题。
如何使用 R 读取 .vec 文件?
如何将 .bin 文件加载到 R 中?
对于我尝试过的 .bin 文件:
model$load(path) 中的错误:fastrtext 中的错误。退出代码:1
显然,这不是要走的路。有任何想法吗?
spacy - 如何在 RASA NLU 中使用印地语模型?
我已经使用带有 spacy 后端的 FastText 构建了我的印地语模型。我按照本教程使用 FastText 构建我的模型。
我还通过以下命令将我的模型与 spacy 链接
现在我没有找到任何使用印地语的帮助,比如我需要使用什么样的配置文件,在哪里导入印地语模型以及现在如何继续?我还有一个问题,比如我们的 data.json 文件在印地语中的外观以及我们将如何使用实体和意图,实体和意图的名称也应该是印地语还是英文?有人可以帮助进一步处理吗?我被困在这里。我必须仅使用 RASA Stack 以印地语构建 ChatBot。
提前致谢....
python - 归一化模型生成的 Fasttext 词嵌入向量
我目前正在使用 FastText 获取一些输入文本数据的词嵌入,以便捕捉它们之间的相似性,并将这些嵌入作为 NER 任务的神经网络的输入。我首先尝试使用 fastText .vec 文件,并且能够从中获得良好的相似性结果,然后我尝试使用 .bin 模型文件,以便我也可以从词汇外术语中获取嵌入但我注意到从 .vec 和 .bin 文件生成的向量是不同的。.vec 文件包含裁剪到 [-1,1] 范围内的嵌入,而 .bin 文件中包含的嵌入则不是这样。使用 .bin 文件我得到了非常糟糕的结果,所以我试图不明白这是否是由于这些向量(.bin)没有标准化。
有没有一种使用 Python 在 [-1, 1] 范围内标准化这些向量的好方法?
提前致谢。
python-3.x - fastText 快速入门指南
我正在阅读最近的书 fastText 快速入门指南,我在书中运行了代码。当我运行此代码时
没关系,但是当我运行第二个代码时,
它说 yelp_review.v1.csv 没有找到或没有这样的文件。为什么会这样?我想当第一个代码运行时,该文件应该作为输出文件保存在 data/yelp 中。有人可以帮我理解吗?
这是python代码。
python - Fasttext UnicodeDecode 问题
我正在尝试加载 fasttext 文件以第一次将其用作单词嵌入。我有这个:
我还尝试了这里描述的内容:https :
//datascience.stackexchange.com/questions/20071/how-do-i-load-fasttext-pretrained-model-with-gensim 我下载了.bin文件的结果仍然相同kaggle(https://www.kaggle.com/kambarakun/fasttext-pretrained-word-vectors-english)但我仍然遇到问题:
'utf8' codec can't decode byte 0xba in position 0: invalid start byte
我只想使用 .bin 文件而不是 .vec 文件,因为它需要的更少时间。
python - 如何在 gensim 和 fasttext 中为 word2vec 准备数据?
我想训练 word2vec 和 fasttext 来获取我拥有的特定数据集的向量。
我的模型应该将什么作为输入?
我的文件是这样的:
现在,我应该如何准备我的数据以供 word2vec 运行?word2vec 模型是否考虑了句子间的相似性,即我是否应该不明智地准备语料库句子。
python - Python - wget 后的 Google Colab 更改目录
在 Google Colaboratory 中,我使用 !wget 命令下载了 fasttext 模块。
它工作正常。“fastText-0.1.0”文件解压成功。然后:
我收到此错误:
/bin/bash:第 0 行:cd:fastText-0.1.0:没有这样的文件或目录
我该如何解决?
facebook - Facebook 的 fasttext 库如何处理输入中的数字数据以进行词向量化?
我正在使用 Facebook 的 Fasttext 来执行文本分类。我想知道 fasttext 库如何处理作为词向量化输入提供的文本字符串中的数字。
在创建词向量之前,fasttext 是否将每个数字类型转换为字符串?
例如 1124 到“ 1124 ”
或者在训练之前在后台执行任何其他转换/预处理?
例如 1124 到“一一二四”
如果我的 fasttext 输入文本包含数字,那么处理数字数据的最佳方法应该是什么?