问题标签 [fasttext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2484 浏览

nlp - 如何将 gensim Word2Vec 模型转换为 FastText 模型?

我有一个 Word2Vec 模型,它是在一个巨大的语料库上训练的。在将这个模型用于神经网络应用程序时,我遇到了很多“词汇之外”的词。现在我需要为这些“Out of Vocabulary”词找到词嵌入。所以我做了一些谷歌搜索,发现 Facebook 最近为此发布了一个 FastText 库。现在我的问题是如何将现有的 word2vec 模型或 Keyedvectors 转换为 FastText 模型?

0 投票
1 回答
1873 浏览

nlp - 句法类比和语义类比有什么区别?

这个关于 fastText 的视频的 15:10,它提到了句法类比和语义类比。但我不确定它们之间有什么区别。

有人可以通过示例帮助解释差异吗?

0 投票
0 回答
524 浏览

neural-network - NLU FastText、Glove 或 Word2Vec 加载预训练模型并将新词添加到词汇表

正如我在标题中所说,我想加载预训练模型

例如,使用 gensim 是可能的,但使用 fasttext 说:

https://radimrehurek.com/gensim/models/wrappers/fasttext.html

使用 Word2vec 可以继续训练您自己的模型,而不是我不知道 Glove 的 pretranind 结束。

你能指点我任何图书馆或其他东西来加载预先训练的模型并继续训练我自己的句子吗?

或者如果我可以将预训练模型加载到神经网络中,然后用我自己的向量继续训练?(也许使用 get_keras_embedding ?)

0 投票
1 回答
352 浏览

fasttext - FastText Wiki 训练向量中的子词信息

有谁知道 facebook 开源的词向量(特别是这里的https://fasttext.cc/docs/en/pretrained-vectors.html)是否包含子词向量,或者它们是否只包含生成的完整词向量。我希望它们包含子词,但我很难找到它们,而且似乎无法在任何地方找到这个问题的明确答案。

0 投票
1 回答
2537 浏览

python - fasttext python的数据格式

我想构建和测试分类器。我制作了 2 个文件 - train.txt 和 test.txt


train.txt/test.txt


__label__1 ,(文本)\n


__label__2 ,(文本)\n


__label__3 ,(文本)\n


等等。建立分类器后:

result = classifier.test("test.txt")

精度始终为 1/n(n - 行数)。因此分类器适用于每个返回相同实体的输入(例如,所有输入为 2)。

0 投票
2 回答
823 浏览

precision - Fasttext 中的精度和召回率

我是 Fasttext 的新手。我已经有几个关于这个库的问题,它们对某些人来说似乎很明显,但我真的很想得到正确的直觉。您的帮助将不胜感激。

首先,我说的是 Fasttext 的文本分类部分。根据此处提供的教程,我们正在预测给定文本的不同标签。我们是否真的为给定的测试文本分配了每个标签,并且该文本与该标签匹配的概率是多少?

第二个问题,在这种情况下,谁能澄清/解释我在 Fasttext 中使用的指标 P@1(精度为 1)和 R@1(召回为 1)的含义?我在这里找到了一个答案。但是这个答案给我带来了更多的问题:

  • 在链接提供的响应中 - 那么 P@1 和 R@1 是什么?根据那里的逻辑和解释,P@1 是一个具有一个结果的预测(在我们的上下文中 - 标签),其中我们可能有 1 个正确或 1 个不正确的标签,这意味着 P@1 只能取值 0 或 1 , 正确的?我们如何在这里获得概率?我们应该只计算所有文本样本中所有 1 的份额吗?如果是,那么 R@1 是什么?在这种情况下如何计算?在这种情况下,R@k 通常是什么?

教程提供的示例中的 P@1 和 R@1 是什么,他们在那里计算了 P@5 和 R@5,对吗?

非常感谢提前,

0 投票
1 回答
271 浏览

machine-learning - fastText 的官方 python 绑定中是否有方法 .predict

我知道在 python(fasttext, pyfasttext) 中存在与 .predict 方法的非官方绑定,但它们不适用于在官方 FastText bash 工具上训练的最新模型,或者没有所有选项。官方 python 绑定只描述了 load_model(path) 和 tokenize(text) 方法,这听起来很奇怪,因为你不能做任何预测。我在这里错过了什么吗?

0 投票
0 回答
1559 浏览

embedding - 使用 fasttext 进行字符嵌入?

我们有预训练的快速文本词嵌入。我们可以用它找到字符嵌入吗?虽然我找到了博客这个链接。但是在这个博客中,作者只是对所有单词的字符进行了平均。有没有其他方法可以在不训练 RNN 或 CNN 的情况下进行字符嵌入。

0 投票
2 回答
953 浏览

python - 在 windows 中测试时,使用 fasttext api 的监督分类返回空数组

我正在尝试使用快速文本 API 构建一个有监督的分类器。我的数据是“output.txt”,有 15000 行、2 列(性别和姓名)和 2 个类 m/f。

代码:

当我用一个名字进行测试时,它会返回

我不明白我的错误在哪里。我按照fastext github中的代码行。当相同的代码能够在 Linux 中运行时,在 Windows 中创建的问题是什么?

我正在使用 Windows,python 3.4x。

更新:我已经评论了模型 = fasttext.load .....

以便将学习到的监督分类器模型保存在model.bin中。相同的代码在 Ubuntu 中有效,但在 Windows 中无效。任何帮助表示赞赏。

0 投票
0 回答
69 浏览

python - 矢量化模型中的文档标签

我对 python 和无监督学习方法有点陌生,但我有一个简单的问题。其中 doc2vec 模型具有 docvecs 属性,其中包含训练期间看到的“文档标签”的所有训练向量;是否有类似的属性可以为 glove、word2vec、fastext、tfidf 和 python 中的一些相关文本向量化模型等模型保存经过训练的向量,它们可能是什么?例如 doc2vec 模型在提取向量进行分类时可能看起来像这样