问题标签 [fasttext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何在python脚本中更改fasttext api的参数
我们有fasttext 命令可以在命令提示符下运行
我已经克隆了 github 存储库,例如在我使用的命令中更改网络参数以进行监督学习就像
我正在改变 lr、epoch 和 loss。我可以训练并获取所需的输出。
为了在 python 脚本中编程,我安装了 fasttext 库,我尝试过
模型得到了训练,但结果并不好,在这种情况下,我没有定义任何参数。所以我试着像
程序运行没有错误,但没有给出任何结果。所以我试着像
它给出了一个错误,即 fasttext 只需要两个参数。
如何在命令提示符下更改 python 脚本中的参数以微调监督学习?
nlp - Fasttext算法仅使用单词和子词?还是句子?
如果有任何学习方法(或更可能的学习过程)的好例子,我也阅读了这篇论文并用谷歌搜索
对于word2vec,假设有语料句
我每天早上带着妈妈包好的饭盒去上学
然后在窗口大小为 2 的情况下,它将尝试通过使用周围的单词来获取 'school' 的向量
['去','去','与','午餐']
现在,FastText 说它使用子词来获取向量,所以肯定是使用 n gram 子词,例如 n=3,
['sc', 'sch', 'cho', 'hoo', 'ool', 'school']
到这里,我明白了。但尚不清楚其他词是否被用于“学校”的学习。我只能猜测其他周围的词也像 word2vec 一样被使用,因为论文提到
=> 术语Wc和Wt都在函数中使用
其中 Wc 是上下文词,Wt 是序列 t 处的词。
然而,目前还不清楚 FastText 如何学习单词的向量。
.
.
请清楚地解释 FastText 学习过程是如何进行的?
.
.
更准确地说,我想知道 FastText 是否也遵循与 Word2Vec 相同的过程,同时它还学习了 n-gram 特征子词。还是仅使用 n-gram 特征子词和正在使用的词?
它如何在初始时对子词进行矢量化?ETC
python - 向 CNN 模型添加词嵌入层时出现值错误
我正在尝试使用 CNN 将 FastText 嵌入层添加到著名的文本分类架构中:https ://github.com/dennybritz/cnn-text-classification-tf
我像这样加载我的 FastText 嵌入:
以下是我在 Tensorflow 中添加嵌入层的方法:
CNN模型的初始化:
单一训练步骤:
作为参考,下面是我的 x_train 和 y_train 的样子:
当我开始训练时,我收到此错误:
此错误似乎是一个 numpy 数组创建错误,它试图将数组元素创建为序列。但是:当我删除嵌入时,我没有收到任何错误,而我的训练数据完全相同,因此批次也是如此。
什么可能导致此错误?
gensim - Gensim FastText - KeyError:“单词不在词汇表中”
我在 FastText 模型中调用“most_similar”时遇到了问题,据我了解,Fasttext 应该能够获得不在词汇表中的单词的结果,但我得到一个“不在词汇表中”的错误,甚至在保存和加载之前,调用非常好。
这是来自 juypter 的代码。
退货
到目前为止一切顺利,现在我保存模型。
然后再次加载它:
然后我从刚刚加载的模型中进行确切的 most_similar 调用:
但现在的结果是:
知道我做错了什么吗?
python - Fasttext skipgram运行缓慢
下面是我的代码,我在 python 2.7 上运行它
我在基于数据实验室的实例上的谷歌云平台上运行它,它的 64 cpu 和 410GB RAM。train.txt 大小为 26GB,耗时 6 个多小时。我该如何调音?
nlp - 有没有办法并行使用 fastText 的单词表示过程?
我是fastText的新手,这是一个用于高效学习单词表示和句子分类的库。我正在尝试为大量数据集生成词向量。但在单个过程中,它需要很长时间。
所以让我清楚地提出我的问题:
- 是否有任何选项可用于加速单个 fastText 进程?
- 有没有办法在并行 fastText 进程中生成词向量?
- 是否有任何其他可用的实现或解决方法可以解决该问题,因为我阅读了 caffe2 implementation is available,但我找不到它。
谢谢
machine-learning - 文本分析中 FastText 分类器的标签 [类别] 限制
我想知道文本分类器可以处理的标签或类别的数量是否有限制?
浏览许多文本分析 API,大多数似乎不超过 20 种。
gensim - 如何在原生 FastText 中加载 Gensim FastText 模型
我在 Gensim 中训练了一个 FastText 模型。我想用它来编码我的句子。具体来说,我想使用本机 FastText 中的此功能:
如何将模型保存在 Gensim 中,使其成为本机 FastText 可以理解的正确二进制格式?
我在 Python 3.4.3 下使用 FastText 0.1.0 和 Gensim 3.4.0。
本质上,我需要Gensim FastText doc中给出的 load_binary_data() 的倒数。
tflearn - tflearn - 嵌入层中的快速文本词向量错误
我正在使用 fasttext 词嵌入来为句子创建词向量,用于情感分析二进制分类器。Fasttext 向量既有负数也有正数。
我的嵌入层是
但是我得到了错误,
这个错误到底是什么意思?
我试图将嵌入词中的所有负值设为 0,虽然它确实有效,但它会丢失很多信息
我不明白 input_dim 如何在 tflearn 的嵌入层中工作?
另外我不明白如何在 tflearn 中使用 Fasttext 词嵌入?
任何帮助将非常感激
python - 进程以退出代码 -1073740791 (0xC0000409) pycharm 错误完成
我正在尝试fastText
与 PyCharm 一起使用。每当我运行以下代码时:
进程退出并出现以下错误:
是什么导致了这个错误,可以做些什么来避免它?