问题标签 [fasttext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 如何限制 FastText 中的字长?
我正在使用 FastText 计算包含一长串没有空格的字符的语料库上的 skipgrams。大约一个小时后,FastText 生成一个模型,其中包含与语料库中长度为 50 个字符的“单词”相对应的向量(长度为 100)。
我尝试设置-minn和-maxn参数,但这无济于事(我有点知道它不会,但无论如何尝试了),并且-wordNgrams参数仅适用于有空格的情况,我猜(?!)。这只是表示状态的一长串字符,没有空格。
该文档似乎没有关于此的任何信息(或者我可能遗漏了什么?)
python - Gensim FastText 计算训练损失
我正在fastText
使用gensim.models.fasttext
. 但是,我似乎无法找到一种方法来计算用于记录目的的迭代损失。如果我看一下gensim.models.word2vec
,它具有get_latest_training_loss
允许您打印训练损失的方法。有没有其他选择或者根本不可能?
word2vec - 使用 fasttext 或 word2vec 计算最近的文档
我有一个包含大约 1000 个文档的小型系统。对于每个文档,我想显示指向 X 个“最相似”文档的链接。
但是,文档没有以任何方式标记,因此这将是某种无监督的方法。
感觉 fasttext 会是一个不错的候选者,但是当它没有标记数据时,我无法理解如何去做。
我可以计算单词向量,尽管我真正需要的是整个文档的向量。
nlp - 如何使用 FastText 处理不平衡的标签数据?
在 FastText 中,我有不平衡的标签。处理它的最佳方法是什么?
python - Gensim Fasttext 预训练模型如何获得词汇外单词的向量?
我正在使用 gensim 加载预训练的 fasttext 模型。我从 fasttext网站下载了英文维基百科训练模型。
这是我为加载预训练模型而编写的代码:
我尝试检查人声中是否存在以下短语(这种情况很少见,因为这些是预先训练的模型)。
所以词汇表中没有“内部执行”这个短语,但我们仍然有与之对应的词向量。
现在我的困惑是 Fastext 也为单词的字符 ngram 创建向量。因此,对于“内部”单词,它将为其所有字符 ngram 创建向量,包括整个单词,然后该单词的最终单词向量是其字符 ngram 的总和。
但是,它怎么还能给我一个单词甚至整个句子的向量呢?fasttext 向量不是用于单词及其 ngram 吗?那么当它显然是两个词时,我看到的这些向量是什么?
nlp - 我们可以使用 char rnn 为词汇表外的单词创建嵌入吗?
我有 1000 万个词的词嵌入,这些词是在一个庞大的语料库上训练的。现在我想为词汇表之外的词生成词嵌入。我可以设计一些 char RNN 来使用这些词嵌入并为词汇之外的词生成嵌入吗?或者还有其他我可以获得OOV单词的嵌入吗?
FastText 能够为 OOV 生成词嵌入,但它没有分布式训练或 GPU 实现方式,所以在我的例子中,完成训练可能需要将近 3 个月的时间。对此有何建议?
python - fasttext 无法加载训练 txt 文件
我正在尝试使用 fasttext python 包在 Windows 中训练一个 fasttext 分类器。我有一个 utf8 文件,其中包含如下行
当我跑
fasttext.supervised('data.train.txt','model', label_prefix='__label__', dim=300, epoch=50, min_count=1, ws=3, minn=4, pretrained_vectors='wiki.simple.vec')
我收到以下错误
当我检查目录中的文件类型时,我得到了
此外,当我尝试在 MacOs 中使用相同的训练文件训练相同的分类器时,它工作正常。我试图了解为什么无法读取该 txt 文件。
谢谢!
nlp - 加载 fasttext 预训练德语词嵌入的 .vec 文件抛出内存错误
我正在使用 gensim 加载 fasttext 的预训练词嵌入
de_model = KeyedVectors.load_word2vec_format('wiki.de\wiki.de.vec')
但这给了我一个记忆错误。
有什么办法可以加载吗?
nlp - 我可以使用 spacy 进行标记,然后使用 fastext 的预训练词嵌入提取这些标记的向量吗
我正在使用 spacy 的德语模型标记我的德语文本语料库。由于目前 spacy 只有小型德国模型,我无法使用 spacy 本身提取词向量。所以,我从这里使用 fasttext 的预训练词嵌入:https ://github.com/facebookresearch/fastText/blob/master/README.md#word-representation-learning
现在 facebook 在为其提取词嵌入之前已经使用 ICU 标记器进行标记化过程。我正在使用 spacy 有人可以告诉我这是否可以吗?我觉得 spacy 和 ICU 分词器的行为可能会有所不同,如果是这样,那么我的文本语料库中的许多令牌将没有相应的词向量
感谢您的帮助!
python-3.x - 如何在python中将大型二进制文件转换为pickle字典?
我正在尝试将包含具有 300 个维度向量的阿拉伯语单词的大型二进制文件转换为泡菜字典
到目前为止我写的是:
我得到的错误是: