问题标签 [fasttext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 gensim 加载 FastText 的法语预训练模型时出错
我正在尝试使用 FastText 的法语预训练二进制模型(从官方FastText 的 github 页面下载)。我需要.bin
模型而不是.vec
词向量来近似拼写错误和词汇外的词。
但是,当我尝试加载所述模型时,使用:
我收到以下错误:
令人惊讶的是,当我尝试加载英文二进制模型时它工作得很好。
我正在运行 python 3.6 和 gensim 3.5.0。
欢迎任何关于为什么它不适用于法国矢量的想法!
javascript - Emscripten:如何使用标头构建 C++ 项目
我想转换这个 C++ 项目(Facebook FastText)
我想跑进去node.js
。我首先将它构建为一个项目,emmake make
并且我已经获得了链接的 LLVM 目标文件:
但显然这不是位代码!然后我用编译器编译,emmake make VERBOSE=1
结果发现它没有使用em++
编译器,所以我尝试了cmake
:
此时我可以看到em++
正在运行
所以我得到以下输出:
结果证明这是一个有效的 javascript 文件,但是在运行它时会导致异常
虽然它应该来自stdin
喜欢
这个错误可能是由于stdin
node.js 造成的吗?类似的命令似乎很好,因为它以正确的方式接受和解析参数:
然后我将它模块化emcc -s MODULARIZE=1 -s LEGACY_VM_SUPPORT=1 -s WASM=0 -O1 libfasttext.so -o libfasttext.js
,并在节点模块中调用,如:
但是我遇到了同样的错误:exception thrown: 5278216 - Exception catching is disabled, this exception cannot be caught. Compile with -s DISABLE_EXCEPTION_CATCHING=0 or DISABLE_EXCEPTION_CATCHING=2 to catch.
以同样的方式我可以运行它设置noInitialRun:true
然后做
但无论如何都有这个错误。
machine-learning - 低 RAM 环境中 Fasttex 的 OOV(词汇表外)词嵌入
有没有办法使用 fasttext 获取 OOV(词汇表外)单词的向量,但不将所有嵌入加载到内存中?
我通常在低 RAM 环境(<10GB RAM)中工作,因此将 7GB 模型加载到内存中是不可能的。要在不使用那么多 RAM 的情况下使用词嵌入,可以.vec
逐行读取(通常是纯文本)文件并将其存储到数据库中(稍后您可以访问该数据库以请求词向量)。但是,要获得带有 fasttext 的 OOV 向量,您需要使用这些.bin
文件并将其加载到内存中。有没有办法避免加载整个.bin
文件?
python-3.x - 无法在 Windows 上为 python 安装 fastText。
所以我无法在 Windows 上为 python 安装 fasttext。我按照this issue中提到的方法
当我输入python setup.py install
时,我收到以下错误:
error: command 'C:\\Program Files (x86)\\Microsoft Visual Studio 14.0\\VC\\BIN\\x86_amd64\\cl.exe' failed with exit status 2
我尝试在https://www.lfd.uci.edu/~gohlke/pythonlibs/#fasttext使用轮子。它确实安装了一个模块,但是该模块的名称是fasttext,这与按照Readme.md
. 此外fasttext
,确实安装的模块无法加载预建模型,如wiki.de.bin
. 我收到一条错误消息说Cannot load ../fasttext/wiki.es/wiki.es.bin due to C++ extension failed to allocate the memory
Relevant issue。
我在这里创建了一个问题,并在这里提出了同样的问题,希望能得到这个社区的更快回应。
c++ - Mac OS 上的 Pyfasttest 安装失败:致命错误:找不到“随机”文件
错误消息:
src/pyfasttext.cpp:648:10:致命错误:找不到“随机”文件
#include。^~~~~~~~。生成 1 个警告和 1 个错误。
错误:命令“gcc”失败,退出状态为 1
已安装 gcc 和 LLVM...
UK-xxxx:vercheng$ gcc --version
配置为:--prefix=/Library/Developer/CommandLineTools/usr --with-gxx-include-dir=/usr/include/c++/ 4.2.1
Apple LLVM 版本 10.0.0 (clang-1000.10.40.1)
目标:x86_64-apple-darwin17.7.0 线程模型:posix InstalledDir:/Library/Developer/CommandLineTools/usr/bin
试过这个:https://github.com/vrasneur/pyfasttext/issues/24
没有帮助
谢谢
python - pip install 2 packages from requirements one after the other
I want to install fasttext
using pip. But fasttext needs Cython
. The error can be seen here:
To solve this from the command line, I would do:
and it would work.
But here, I need to install my packages from a single requirements.txt
file like this: pip install -r requirements.txt
.
If my requirements.txt
file looks like this:
It still gives me the error that fasttext
needs Cython
to be installed.
Is there a way, all in a single requirements.txt
file, to ask pip
to wait until Cython
is installed to launch the fasttext
install?
cluster-analysis - FastText的聚类方法
我正在使用预训练的 fastText ( https://fasttext.cc/ ) 向量对短聊天消息进行聚类。这意味着结果向量将是组成消息的标记的平均值。
我最初开始使用 k-means,但我现在想知道它是否是正确的选择。例如,K-means 使用欧几里得距离,而在大多数情况下,词嵌入相似度是使用余弦相似度计算的。
在这种情况下如何选择合适的聚类方法?
python-3.x - 使用 Gensim 实现 Word 到向量模型
我们正在尝试为下面给出的一组单词实现一个单词向量模型。
我们正在使用这段代码:
但是,我们收到此错误:
python - 继续训练 FastText 模型
我已经下载了一个.bin
FastText 模型,并按gensim
如下方式使用它:
我想继续训练模型以使其适应我的领域。在检查了 FastText 的 Github和Gensim 文档之后,使用此人提出的修改似乎目前不可行(尚未合并)
我错过了什么吗?
tensorflow - 是否有任何可以识别数字集群本身的无监督聚类技术?
我检查了 gensim、fasttext、sklearn 上的无监督聚类,但没有找到任何文档可以使用无监督学习对文本数据进行聚类,而无需提及要识别的聚类数量
例如在 sklearn KMneans 聚类中
我必须在哪里提供 n_clusters。
就我而言,我有文本,它应该自动识别其中的集群数量并对文本进行集群。非常感谢任何参考文章或链接。