问题标签 [fasttext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 为 fastText 设置 char n-gram 的最大长度
我想根据这个比较教程比较 word2vec 和 fasttext 模型。 https://github.com/jayantj/gensim/blob/fast_text_notebook/docs/notebooks/Word2Vec_FastText_Comparison.ipynb
据此,当我们将 char n-gram 的最大长度设置为零时,fastText 模型的语义准确性会提高,因此 fastText 开始表现得几乎类似于 word2vec。它忽略了 ngram。
但是,在加载 fastText 模型时,我找不到任何有关如何设置此参数的信息。关于如何做到这一点的任何想法?
nlp - FastText 精度和召回率的权衡
在 FastText 中,我想改变精确度和召回率之间的平衡。可以做到吗?
nlp - 使用预训练向量训练 word2vec
我正在使用快速文本在特定文本语料库上训练词向量。Fasttext 为训练词向量提供了所有必要的机制和选项,当使用 tsne 查看时,向量是惊人的。我注意到 gensim 有一个用于快速文本的包装器,这对于访问向量很有用。
对于我的任务,我有很多文本语料库。我需要在新的语料库中再次使用上述经过训练的向量,并在新发现的语料库中再次使用经过训练的向量。fasttext 不提供此功能。我没有看到任何可以实现这一目标的软件包,或者我可能迷路了。我在谷歌论坛gensim 中看到提供 intersect_word2vec_format,但无法理解或找到此使用教程。还有一个与此类似的问题悬而未决,没有答案。
所以除了gensim,还有没有其他方法可以像上面那样训练模型。
python - FastText - 由于 C++ 扩展未能分配内存而无法加载 model.bin
我正在尝试使用 FastText Python API https://pypi.python.org/pypi/fasttext虽然,根据我的阅读,此 API 无法在https://github加载较新的 .bin 模型文件.com/facebookresearch/fastText/blob/master/pretrained-vectors.md如https://github.com/salestock/fastText.py/issues/115中所建议
我已经尝试了在该问题上建议的所有内容,而且https://github.com/Kyubyong/wordvectors没有英文的 .bin,否则问题将得到解决。有谁知道解决这个问题的方法?
nlp - fastText 中的精度和召回率?
我实现了用于文本分类的 fastText,链接https://github.com/facebookresearch/fastText/blob/master/tutorials/supervised-learning.md 我想知道precision@1 或P@5 是什么意思?我做了一个二进制分类,但我测试了不同的数字,我不明白结果:
python - 微调预训练的 word2vec 谷歌新闻
我目前正在使用在 Google 新闻语料库上训练的 Word2Vec 模型(从这里开始)因为直到 2013 年才对新闻进行训练,所以我需要更新向量并根据 2013 年之后的新闻在词汇表中添加新单词。
假设我在 2013 年之后有一个新的新闻语料库。我可以重新训练、微调或更新 Google News Word2Vec 模型吗?可以使用 Gensim 完成吗?可以使用 FastText 完成吗?
matlab - fasttext - 提取和比较预训练的词向量
我正在使用来自https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md的德语预训练词向量
我遇到了以下问题:
- 为了提取单词的向量,我首先在
wiki.de.vec
文本文件中搜索相应的单词。但是,wiki.de.vec
文本文件中的向量与print-word-vectors
函数输出的向量不同(例如,文件中的“affe”向量表示“monkey”与wiki.de.vec
“affe”的输出不同print-word-vectors
)。这是什么原因?我认为发生这种情况是因为单词的向量是通过在 Bojanowski 等人的模型中添加其字符nwiki.de.vec
-gram 向量的总和来计算的,但是文本文件中“affe”的向量反映了什么?是不是也出现在诸如“karaffe”之类的其他词中的n- gram 'affe' 的向量。因此,是否应该始终使用该print-word-vectors
功能(即-gram 向量)在使用这些向量时,而不是简单地从文本文件中提取向量? - 一些真正的德语单词(例如 knatschen、resonieren)接收一个空向量(即使使用
print-word-vectors
函数)。如果这种子词方法的主要优点是计算词汇外词的向量,这怎么可能呢? - 最近邻函数 (
./fasttext nn
) 输出具有余弦距离的单词的最近邻。但是,这个值与我通过获取单个单词的向量print-word-vectors
并在 Matlab 中使用pdist2(wordVector1, wordVector2, 'cosine')
. 为什么会这样?这是获取两个词向量之间的余弦距离的错误方法吗?
提前感谢您的帮助和建议!
python - 使用 Facebook-Fasttext 对新文本进行分类时,为什么返回的数据类型是列表?
我正在尝试使用 Facebook-Fasttext 模块对新文本进行分类,代码如下:
corpus_seg_2.txt 是一个已经被分割的文件。模型的准确率为 72%,召回率为 72%。然后,我用模型预测了一个新的文本:'五五开也很厉害啊'。但是,我得到的 test_labell 令人困惑,我想知道为什么结果是这样的,我该如何解决? 这张图片将向您展示我在运行我提供的代码后得到的结果
machine-learning - 计算 FastText 分类器模型的混淆矩阵
我正在以这种FastText
方式为 Facebook分类器模型计算混淆矩阵:
我的预测和测试集就像
模型的预测是通过这种方式在测试集上计算的:
然后我要计算FastText
混淆矩阵:
但我遇到了这个错误:
我已按照建议修复了脚本以处理非数字标签:
此外,如果FastText
测试集可能__label__
在某些时候具有标准化标签(不带前缀),因此要转换回前缀,您可以这样做:
请参阅此处。
此外,输入测试文件必须从标签列之外的其他列中剪切:
所以最后我们得到了混淆矩阵:
我的最终解决方案在这里。
[更新]
该脚本现在工作正常。我在我的 FastText Node.js 实现中直接添加了混淆矩阵计算脚本,FastText.js
这里。
tensorflow - 使用 Tensorflow 和预训练的 FastText 获取未见过单词的嵌入
我正在使用预训练的 fasttext 模型https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md)。
我使用 Gensim 加载 fasttext 模型。它可以为任何单词输出一个向量,无论它是可见的还是不可见的(词汇表外)。
在 tensorflow 中,我知道我可以使用下面的代码来获得可训练的单词嵌入:
已知词的索引很容易得到。然而,对于那些看不见的词,FastText 根据子词模式“预测”它们的潜在向量。看不见的词没有任何索引。
在这种情况下,我应该如何使用 tensorflow 来处理使用 fasttext 的已知单词和未见过的单词?