“fasttext”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

837 浏览

nlp - 为 fastText 设置 char n-gram 的最大长度

我想根据这个比较教程比较 word2vec 和 fasttext 模型。 https://github.com/jayantj/gensim/blob/fast_text_notebook/docs/notebooks/Word2Vec_FastText_Comparison.ipynb

据此，当我们将 char n-gram 的最大长度设置为零时，fastText 模型的语义准确性会提高，因此 fastText 开始表现得几乎类似于 word2vec。它忽略了 ngram。

但是，在加载 fastText 模型时，我找不到任何有关如何设置此参数的信息。关于如何做到这一点的任何想法？

2017-08-08T13:03:45.140

0 投票

1 回答

482 浏览

nlp - FastText 精度和召回率的权衡

在 FastText 中，我想改变精确度和召回率之间的平衡。可以做到吗？

nlp word2vec text-analysis word-embedding fasttext

2017-08-16T12:35:03.800

0 投票

0 回答

613 浏览

nlp - 使用预训练向量训练 word2vec

我正在使用快速文本在特定文本语料库上训练词向量。Fasttext 为训练词向量提供了所有必要的机制和选项，当使用 tsne 查看时，向量是惊人的。我注意到 gensim 有一个用于快速文本的包装器，这对于访问向量很有用。

对于我的任务，我有很多文本语料库。我需要在新的语料库中再次使用上述经过训练的向量，并在新发现的语料库中再次使用经过训练的向量。fasttext 不提供此功能。我没有看到任何可以实现这一目标的软件包，或者我可能迷路了。我在谷歌论坛gensim 中看到提供 intersect_word2vec_format，但无法理解或找到此使用教程。还有一个与此类似的问题悬而未决，没有答案。

所以除了gensim，还有没有其他方法可以像上面那样训练模型。

nlp gensim word2vec fasttext

2017-08-22T09:02:54.627

0 投票

5 回答

4420 浏览

python - FastText - 由于 C++ 扩展未能分配内存而无法加载 model.bin

我正在尝试使用 FastText Python API https://pypi.python.org/pypi/fasttext虽然，根据我的阅读，此 API 无法在https://github加载较新的 .bin 模型文件.com/facebookresearch/fastText/blob/master/pretrained-vectors.md如 https://github.com/salestock/fastText.py/issues/115中所建议

我已经尝试了在该问题上建议的所有内容，而且https://github.com/Kyubyong/wordvectors没有英文的 .bin，否则问题将得到解决。有谁知道解决这个问题的方法？

python nlp embedding fasttext

2017-08-28T16:13:46.370

0 投票

2 回答

2846 浏览

nlp - fastText 中的精度和召回率？

我实现了用于文本分类的 fastText，链接https://github.com/facebookresearch/fastText/blob/master/tutorials/supervised-learning.md 我想知道precision@1 或P@5 是什么意思？我做了一个二进制分类，但我测试了不同的数字，我不明白结果：

nlp classification precision fasttext

2017-09-09T10:54:54.110

0 投票

2 回答

3456 浏览

python - 微调预训练的 word2vec 谷歌新闻

我目前正在使用在 Google 新闻语料库上训练的 Word2Vec 模型（从这里开始）因为直到 2013 年才对新闻进行训练，所以我需要更新向量并根据 2013 年之后的新闻在词汇表中添加新单词。

假设我在 2013 年之后有一个新的新闻语料库。我可以重新训练、微调或更新 Google News Word2Vec 模型吗？可以使用 Gensim 完成吗？可以使用 FastText 完成吗？

python gensim word2vec google-news fasttext

2017-09-15T16:48:47.670

0 投票

0 回答

464 浏览

matlab - fasttext - 提取和比较预训练的词向量

我正在使用来自https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md的德语预训练词向量

我遇到了以下问题：

为了提取单词的向量，我首先在wiki.de.vec文本文件中搜索相应的单词。但是，wiki.de.vec文本文件中的向量与print-word-vectors函数输出的向量不同（例如，文件中的“affe”向量表示“monkey”与wiki.de.vec“affe”的输出不同print-word-vectors）。这是什么原因？我认为发生这种情况是因为单词的向量是通过在 Bojanowski 等人的模型中添加其字符nwiki.de.vec -gram 向量的总和来计算的，但是文本文件中“affe”的向量反映了什么？是不是也出现在诸如“karaffe”之类的其他词中的n- gram 'affe' 的向量。因此，是否应该始终使用该print-word-vectors功能（即-gram 向量）在使用这些向量时，而不是简单地从文本文件中提取向量？
一些真正的德语单词（例如 knatschen、resonieren）接收一个空向量（即使使用print-word-vectors函数）。如果这种子词方法的主要优点是计算词汇外词的向量，这怎么可能呢？
最近邻函数 ( ./fasttext nn) 输出具有余弦距离的单词的最近邻。但是，这个值与我通过获取单个单词的向量print-word-vectors并在 Matlab 中使用pdist2(wordVector1, wordVector2, 'cosine'). 为什么会这样？这是获取两个词向量之间的余弦距离的错误方法吗？

提前感谢您的帮助和建议！

matlab vector text fasttext

2017-10-14T11:44:32.323

0 投票

1 回答

559 浏览

python - 使用 Facebook-Fasttext 对新文本进行分类时，为什么返回的数据类型是列表？

我正在尝试使用 Facebook-Fasttext 模块对新文本进行分类，代码如下：

corpus_seg_2.txt 是一个已经被分割的文件。模型的准确率为 72%，召回率为 72%。然后，我用模型预测了一个新的文本：'五五开也很厉害啊'。但是，我得到的 test_labell 令人困惑，我想知道为什么结果是这样的，我该如何解决？这张图片将向您展示我在运行我提供的代码后得到的结果

python fasttext

2017-10-15T12:04:14.427

0 投票

1 回答

1555 浏览

machine-learning - 计算 FastText 分类器模型的混淆矩阵

我正在以这种FastText方式为 Facebook分类器模型计算混淆矩阵：

我的预测和测试集就像

模型的预测是通过这种方式在测试集上计算的：

然后我要计算FastText混淆矩阵：

但我遇到了这个错误：

我已按照建议修复了脚本以处理非数字标签：

此外，如果FastText测试集可能__label__在某些时候具有标准化标签（不带前缀），因此要转换回前缀，您可以这样做：

请参阅此处。

此外，输入测试文件必须从标签列之外的其他列中剪切：

所以最后我们得到了混淆矩阵：

我的最终解决方案在这里。

[更新]

该脚本现在工作正常。我在我的 FastText Node.js 实现中直接添加了混淆矩阵计算脚本，FastText.js 这里。

machine-learning dataset evaluation confusion-matrix fasttext

2017-10-27T15:06:33.217

0 投票

1 回答

3923 浏览

tensorflow - 使用 Tensorflow 和预训练的 FastText 获取未见过单词的嵌入

我正在使用预训练的 fasttext 模型https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md）。

我使用 Gensim 加载 fasttext 模型。它可以为任何单词输出一个向量，无论它是可见的还是不可见的（词汇表外）。

在 tensorflow 中，我知道我可以使用下面的代码来获得可训练的单词嵌入：

已知词的索引很容易得到。然而，对于那些看不见的词，FastText 根据子词模式“预测”它们的潜在向量。看不见的词没有任何索引。

在这种情况下，我应该如何使用 tensorflow 来处理使用 fasttext 的已知单词和未见过的单词？

tensorflow embedding fasttext

2017-10-30T19:08:55.003

问题标签 [fasttext]

Reference