问题标签 [fasttext]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

398 问题

0 投票

1 回答

353 浏览

nlp - 如何限制 FastText 中的字长？

我正在使用 FastText 计算包含一长串没有空格的字符的语料库上的 skipgrams。大约一个小时后，FastText 生成一个模型，其中包含与语料库中长度为 50 个字符的“单词”相对应的向量（长度为 100）。

我尝试设置-minn和-maxn参数，但这无济于事（我有点知道它不会，但无论如何尝试了），并且-wordNgrams参数仅适用于有空格的情况，我猜（？！）。这只是表示状态的一长串字符，没有空格。

该文档似乎没有关于此的任何信息（或者我可能遗漏了什么？）

2018-05-31T14:56:52.093

0 投票

1 回答

817 浏览

python - Gensim FastText 计算训练损失

我正在fastText使用gensim.models.fasttext. 但是，我似乎无法找到一种方法来计算用于记录目的的迭代损失。如果我看一下gensim.models.word2vec，它具有get_latest_training_loss允许您打印训练损失的方法。有没有其他选择或者根本不可能？

python nlp word2vec gensim fasttext

2018-06-01T12:13:08.230

0 投票

1 回答

1490 浏览

word2vec - 使用 fasttext 或 word2vec 计算最近的文档

我有一个包含大约 1000 个文档的小型系统。对于每个文档，我想显示指向 X 个“最相似”文档的链接。

但是，文档没有以任何方式标记，因此这将是某种无监督的方法。

感觉 fasttext 会是一个不错的候选者，但是当它没有标记数据时，我无法理解如何去做。

我可以计算单词向量，尽管我真正需要的是整个文档的向量。

word2vec knn tf-idf nearest-neighbor fasttext

2018-06-07T10:12:57.457

0 投票

2 回答

1793 浏览

nlp - 如何使用 FastText 处理不平衡的标签数据？

在 FastText 中，我有不平衡的标签。处理它的最佳方法是什么？

nlp word2vec fasttext

2018-06-10T08:02:05.467

0 投票

1 回答

10177 浏览

python - Gensim Fasttext 预训练模型如何获得词汇外单词的向量？

我正在使用 gensim 加载预训练的 fasttext 模型。我从 fasttext网站下载了英文维基百科训练模型。

这是我为加载预训练模型而编写的代码：

我尝试检查人声中是否存在以下短语（这种情况很少见，因为这些是预先训练的模型）。

所以词汇表中没有“内部执行”这个短语，但我们仍然有与之对应的词向量。

现在我的困惑是 Fastext 也为单词的字符 ngram 创建向量。因此，对于“内部”单词，它将为其所有字符 ngram 创建向量，包括整个单词，然后该单词的最终单词向量是其字符 ngram 的总和。

但是，它怎么还能给我一个单词甚至整个句子的向量呢？fasttext 向量不是用于单词及其 ngram 吗？那么当它显然是两个词时，我看到的这些向量是什么？

python nlp gensim fasttext

2018-06-13T02:33:19.897

0 投票

0 回答

85 浏览

nlp - 我们可以使用 char rnn 为词汇表外的单词创建嵌入吗？

我有 1000 万个词的词嵌入，这些词是在一个庞大的语料库上训练的。现在我想为词汇表之外的词生成词嵌入。我可以设计一些 char RNN 来使用这些词嵌入并为词汇之外的词生成嵌入吗？或者还有其他我可以获得OOV单词的嵌入吗？

FastText 能够为 OOV 生成词嵌入，但它没有分布式训练或 GPU 实现方式，所以在我的例子中，完成训练可能需要将近 3 个月的时间。对此有何建议？

nlp lstm rnn word-embedding fasttext

2018-06-15T16:31:12.453

0 投票

2 回答

5265 浏览

python - fasttext 无法加载训练 txt 文件

我正在尝试使用 fasttext python 包在 Windows 中训练一个 fasttext 分类器。我有一个 utf8 文件，其中包含如下行

当我跑

fasttext.supervised('data.train.txt','model', label_prefix='__label__', dim=300, epoch=50, min_count=1, ws=3, minn=4, pretrained_vectors='wiki.simple.vec')

我收到以下错误

当我检查目录中的文件类型时，我得到了

此外，当我尝试在 MacOs 中使用相同的训练文件训练相同的分类器时，它工作正常。我试图了解为什么无法读取该 txt 文件。

谢谢！

python windows utf-8 fasttext

2018-06-18T09:37:21.647

0 投票

1 回答

2503 浏览

nlp - 加载 fasttext 预训练德语词嵌入的 .vec 文件抛出内存错误

我正在使用 gensim 加载 fasttext 的预训练词嵌入

de_model = KeyedVectors.load_word2vec_format('wiki.de\wiki.de.vec')

但这给了我一个记忆错误。

有什么办法可以加载吗？

nlp gensim word-embedding fasttext

2018-06-18T13:08:57.900

0 投票

1 回答

602 浏览

nlp - 我可以使用 spacy 进行标记，然后使用 fastext 的预训练词嵌入提取这些标记的向量吗

我正在使用 spacy 的德语模型标记我的德语文本语料库。由于目前 spacy 只有小型德国模型，我无法使用 spacy 本身提取词向量。所以，我从这里使用 fasttext 的预训练词嵌入：https ://github.com/facebookresearch/fastText/blob/master/README.md#word-representation-learning

现在 facebook 在为其提取词嵌入之前已经使用 ICU 标记器进行标记化过程。我正在使用 spacy 有人可以告诉我这是否可以吗？我觉得 spacy 和 ICU 分词器的行为可能会有所不同，如果是这样，那么我的文本语料库中的许多令牌将没有相应的词向量

感谢您的帮助！

nlp spacy word-embedding fasttext

2018-06-18T14:39:59.577

0 投票

0 回答

550 浏览

python-3.x - 如何在python中将大型二进制文件转换为pickle字典？

我正在尝试将包含具有 300 个维度向量的阿拉伯语单词的大型二进制文件转换为泡菜字典

到目前为止我写的是：

我得到的错误是：

python-3.x pickle fasttext

2018-06-19T21:15:26.793

1 2 3 4 5 6 7 8 9 10

问题标签 [fasttext]

Reference