问题标签 [fasttext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
facebook - 在 Facebook fasttext 中指定隐藏单元的数量
在关于用于监督分类的fasttext 的论文中,作者通过更改某些参数指定了各种数量的隐藏单元(h 是第 3,4 页上的那个 - 在表 1 中,您会看到“它有 10 个隐藏单元,我们在有和没有的情况下对其进行评估bigrams。”)但在阅读文档后,似乎没有“隐藏单元”参数可以更改。有没有办法指定隐藏单元的数量?或者这与指定 -dim 选项相同吗?
word2vec - 在 fasttext 中加快速度的真正原因
加速的真正原因是什么,尽管 fasttext 论文中提到的管道使用了技术——负采样和 heirerchichal softmax;在早期的 word2vec 论文中。我无法清楚地理解实际差异,这是导致这种加速发生的原因吗?
c++ - 在 Cython 中处理 C++ 数组(使用 numpy 和 pytorch)
我正在尝试用来cython
包装 C++ 库(fastText
如果相关)。C++ 库类从磁盘加载一个非常大的数组。我的包装器从 C++ 库实例化一个类以加载数组,然后使用cython
内存视图并将numpy.asarray
数组转换为numpy
数组,然后调用torch.from_numpy
以创建张量。
出现的问题是如何处理数组的内存释放。
现在,pointer being freed was not allocated
当程序退出时,我得到了。我希望这是因为 C++ 代码和numpy
/pytorch
都在尝试管理同一块 RAM。
我可以简单地注释掉 C++ 库中的析构函数,但感觉它会给我带来一个不同的问题。
我应该如何处理这个问题?是否有任何关于如何使用 C++ 处理内存共享的最佳实践文档cython
?
如果我修改 C++ 库以将数组包装在 a 中shared_ptr
,cython
(和numpy
、pytorch
、等)会shared_ptr
正确共享吗?
如果问题很幼稚,我深表歉意;Python 垃圾收集对我来说非常神秘。
任何建议表示赞赏。
pandas - 通过排除某些词汇来更快地加载 fasttext 模型
在本地机器上加载 Facebook Research 发布的预训练 fasttext wordvectors 需要很长时间,我喜欢这样:
我正在寻求通过删除未出现在我的数据集中的单词的单词向量来减少加载时间。即我想将预训练的向量模型简化为构成我需要分析的数据集的单词,这是预训练模型的一个子集。
我正要尝试通过提取我需要的词向量并保存到一个新模型来构建一个新模型,但是类型会从FastTextKeyedVectors更改为FastText:
如何减少加载时间?我的方法有意义还是我走错了路?
python - Python FastText:如何从数据框列创建语料库
- 我需要为我的 Email Classifer 创建一个语料库。现在正在使用fasttext 0.8.3,但它需要文本文件作为输入,而我需要将数据帧作为输入传递。
它在我使用以下代码时显示错误:-
```
导入快速文本
- 在上面的代码中,df['Message'] 和 df['Categories']分别是包含邮件和类别的数据框列。
- 数据框中有 30123 封邮件。
- 我已经阅读了 fasttext 的文档,但我觉得没什么用。
谢谢您的帮助。
python - 使用 fasttext 预训练词向量作为嵌入到 tensorflow 脚本中
我可以像这里的那样使用 fasttext 词向量: https ://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md 在 tensorflow 脚本中作为嵌入向量而不是 word2vec 或 glove 而不使用库 fasttext
python - 在 python 中嵌入代码的 Fasttext 文档
目前,Fasttext 通过取句子中单词的归一化词向量的平均值来生成句子向量。这是提出句子向量的最佳方法吗?
或者是否使用单词的 tfidf 权重,然后从中减去第一个 PCA 组件,如本文所述:https ://openreview.net/pdf?id=SyK00v5xx 会更好。在 fasttext 中是否已经有任何这样的实现。如果是这样,在哪里以及如何通过 python 使用它。
另外,当我计算它的 fasttext 向量时,我是否需要从句子中删除停用词?
同样在fasttext的python绑定中如何计算句子向量。似乎没有语法。任何意见。
c - fastText 和 word2vec:精度计算代码中的 NaN
wiki.en.vec
我从 fastText Github 存储库页面下载了预训练的英语维基百科向量文件(
我通过简单地构建 word2vec 存储库make
。
我跑了./compute-accuracy wiki.en.vec 0 < questions-words.txt
,也就是说,我将预训练的向量文件从 word2vec 和阈值 0 一起传递给计算精度二进制文件,以便考虑整个词汇表,而不是默认将其限制为 30000,并且我还发送了准确度questions-words.txt
使用计算数据集,<
因为我注意到代码从标准输入读取数据集。
作为回应,我只是得到了一堆像下面这样的 NaN。即使我将阈值更改为 30000 或其他任何值,这也不会改变。
有人可以解释为什么英语预训练向量似乎不适用于 word2vec 的准确度计算代码吗?我看了看,compute-accuracy.c
它看起来确实需要标准矢量文件格式约定,我也看了看wiki.en.vec
,它看起来确实像标准约定格式。
此外,在 fastText 论文中,提出了使用 fastText 向量的词类比精度,并且该论文在那里引用了 Mikolov 的 word2vec 论文——显然,使用了相同的数据集,并且可能使用了相同的 word2veccompute-accuracy.c
文件来获得呈现的数字。那么有人可以解释发生了什么问题吗?
python - Python 的 Fasttext - 模块“fasttext”没有属性“load_model”
请原谅我的新手,但 fasttext 在 python 上不适合我。我正在使用运行 python 3.6 的 anaconda。我的代码如下(只是一个例子):
这将返回以下错误:
尝试创建词向量时,对 cbow 和 skipgram 做同样的事情。我从 .../site-packages/fasttext 目录中检查了init .py 文件,它导入了所述属性,但它们不是 model.py 模块的一部分。我猜这与共享对象文件有关,但我不确定。任何帮助是极大的赞赏。
nlp - 是否有一种语义相似性方法在语义准确性方面优于 word2vec 方法?
我正在研究各种语义相似性方法,例如 word2vec、word mover distance (WMD) 和 fastText。就语义相似性而言,fastText 并不比 Word2Vec 好。WMD 和 Word2Vec 的结果几乎相似。
我想知道是否有替代方案在语义准确性方面优于 Word2Vec 模型?
我的用例: 找到两个句子的词嵌入,然后使用余弦相似度来找到它们的相似度。