问题标签 [fasttext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1257 浏览

python - 如何在python脚本中更改fasttext api的参数

我们有fasttext 命令可以在命令提示符下运行

我已经克隆了 github 存储库,例如在我使用的命令中更改网络参数以进行监督学习就像

我正在改变 lr、epoch 和 loss。我可以训练并获取所需的输出。

为了在 python 脚本中编程,我安装了 fasttext 库,我尝试过

模型得到了训练,但结果并不好,在这种情况下,我没有定义任何参数。所以我试着像

程序运行没有错误,但没有给出任何结果。所以我试着像

它给出了一个错误,即 fasttext 只需要两个参数。

如何在命令提示符下更改 python 脚本中的参数以微调监督学习?

0 投票
2 回答
3661 浏览

nlp - Fasttext算法仅使用单词和子词?还是句子?

如果有任何学习方法(或更可能的学习过程)的好例子,我也阅读了这篇论文并用谷歌搜索

对于word2vec,假设有语料句

我每天早上带着妈妈包好的饭盒去上学

然后在窗口大小为 2 的情况下,它将尝试通过使用周围的单词来获取 'school' 的向量

['去','去','与','午餐']

现在,FastText 说它使用子词来获取向量,所以肯定是使用 n gram 子词,例如 n=3,

['sc', 'sch', 'cho', 'hoo', 'ool', 'school']

到这里,我明白了。但尚不清楚其他词是否被用于“学校”的学习。我只能猜测其他周围的词也像 word2vec 一样被使用,因为论文提到

=> 术语WcWt都在函数中使用

其中 Wc 是上下文词,Wt 是序列 t 处的词。

然而,目前还不清楚 FastText 如何学习单词的向量。

.

.

请清楚地解释 FastText 学习过程是如何进行的?

.

.

更准确地说,我想知道 FastText 是否也遵循与 Word2Vec 相同的过程,同时它还学习了 n-gram 特征子。还是仅使用 n-gram 特征子词和正在使用的词?

它如何在初始时对子词进行矢量化?ETC

0 投票
0 回答
87 浏览

python - 向 CNN 模型添加词嵌入层时出现值错误

我正在尝试使用 CNN 将 FastText 嵌入层添加到著名的文本分类架构中:https ://github.com/dennybritz/cnn-text-classification-tf

我像这样加载我的 FastText 嵌入:

以下是我在 Tensorflow 中添加嵌入层的方法:

CNN模型的初始化:

单一训练步骤:

作为参考,下面是我的 x_train 和 y_train 的样子:

x_train 和 y_train

当我开始训练时,我收到此错误:

此错误似乎是一个 numpy 数组创建错误,它试图将数组元素创建为序列。但是:当我删除嵌入时,我没有收到任何错误,而我的训练数据完全相同,因此批次也是如此。

什么可能导致此错误?

0 投票
2 回答
2242 浏览

gensim - Gensim FastText - KeyError:“单词不在词汇表中”

我在 FastText 模型中调用“most_similar”时遇到了问题,据我了解,Fasttext 应该能够获得不在词汇表中的单词的结果,但我得到一个“不在词汇表中”的错误,甚至在保存和加载之前,调用非常好。

这是来自 juypter 的代码。

退货

到目前为止一切顺利,现在我保存模型。

然后再次加载它:

然后我从刚刚加载的模型中进行确切的 most_similar 调用:

但现在的结果是:

知道我做错了什么吗?

0 投票
0 回答
412 浏览

python - Fasttext skipgram运行缓慢

下面是我的代码,我在 python 2.7 上运行它

我在基于数据实验室的实例上的谷歌云平台上运行它,它的 64 cpu 和 410GB RAM。train.txt 大小为 26GB,耗时 6 个多小时。我该如何调音?

0 投票
2 回答
1385 浏览

nlp - 有没有办法并行使用 fastText 的单词表示过程?

我是fastText的新手,这是一个用于高效学习单词表示和句子分类的库。我正在尝试为大量数据集生成词向量。但在单个过程中,它需要很长时间。

所以让我清楚地提出我的问题:

  • 是否有任何选项可用于加速单个 fastText 进程?
  • 有没有办法在并行 fastText 进程中生成词向量?
  • 是否有任何其他可用的实现或解决方法可以解决该问题,因为我阅读了 caffe2 implementation is available,但我找不到它。

谢谢

0 投票
0 回答
76 浏览

machine-learning - 文本分析中 FastText 分类器的标签 [类别] 限制

我想知道文本分类器可以处理的标签或类别的数量是否有限制?

浏览许多文本分析 API,大多数似乎不超过 20 种。

0 投票
1 回答
1258 浏览

gensim - 如何在原生 FastText 中加载 Gensim FastText 模型

我在 Gensim 中训练了一个 FastText 模型。我想用它来编码我的句子。具体来说,我想使用本机 FastText 中的此功能:

如何将模型保存在 Gensim 中,使其成为本机 FastText 可以理解的正确二进制格式?

我在 Python 3.4.3 下使用 FastText 0.1.0 和 Gensim 3.4.0。

本质上,我需要Gensim FastText doc中给出的 load_binary_data() 的倒数。

0 投票
0 回答
108 浏览

tflearn - tflearn - 嵌入层中的快速文本词向量错误

我正在使用 fasttext 词嵌入来为句子创建词向量,用于情感分析二进制分类器。Fasttext 向量既有负数也有正数。

我的嵌入层是

但是我得到了错误,

这个错误到底是什么意思?

我试图将嵌入词中的所有负值设为 0,虽然它确实有效,但它会丢失很多信息

我不明白 input_dim 如何在 tflearn 的嵌入层中工作?

另外我不明白如何在 tflearn 中使用 Fasttext 词嵌入?

任何帮助将非常感激

0 投票
1 回答
22480 浏览

python - 进程以退出代码 -1073740791 (0xC0000409) pycharm 错误完成

我正在尝试fastText与 PyCharm 一起使用。每当我运行以下代码时:

进程退出并出现以下错误:

是什么导致了这个错误,可以做些什么来避免它?