问题标签 [fasttext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2588 浏览

python - 使用 gensim 加载 FastText 的法语预训练模型时出错

我正在尝试使用 FastText 的法语预训练二进制模型(从官方FastText 的 github 页面下载)。我需要.bin模型而不是.vec词向量来近似拼写错误和词汇外的词。

但是,当我尝试加载所述模型时,使用:

我收到以下错误:

令人惊讶的是,当我尝试加载英文二进制模型时它工作得很好。

我正在运行 python 3.6 和 gensim 3.5.0。

欢迎任何关于为什么它不适用于法国矢量的想法!

0 投票
0 回答
1039 浏览

javascript - Emscripten:如何使用标头构建 C++ 项目

我想转换这个 C++ 项目(Facebook FastText

我想跑进去node.js。我首先将它构建为一个项目emmake make并且我已经获得了链接的 LLVM 目标文件:

但显然这不是位代码!然后我用编译器编译,emmake make VERBOSE=1结果发现它没有使用em++编译器,所以我尝试了cmake

此时我可以看到em++正在运行

所以我得到以下输出:

结果证明这是一个有效的 javascript 文件,但是在运行它时会导致异常

虽然它应该来自stdin喜欢

这个错误可能是由于stdinnode.js 造成的吗?类似的命令似乎很好,因为它以正确的方式接受和解析参数:

然后我将它模块化emcc -s MODULARIZE=1 -s LEGACY_VM_SUPPORT=1 -s WASM=0 -O1 libfasttext.so -o libfasttext.js,并在节点模块中调用,如:

但是我遇到了同样的错误:exception thrown: 5278216 - Exception catching is disabled, this exception cannot be caught. Compile with -s DISABLE_EXCEPTION_CATCHING=0 or DISABLE_EXCEPTION_CATCHING=2 to catch.

以同样的方式我可以运行它设置noInitialRun:true然后做

但无论如何都有这个错误。

0 投票
1 回答
639 浏览

machine-learning - 低 RAM 环境中 Fasttex 的 OOV(词汇表外)词嵌入

有没有办法使用 fasttext 获取 OOV(词汇表外)单词的向量,但不将所有嵌入加载到内存中?

我通常在低 RAM 环境(<10GB RAM)中工作,因此将 7GB 模型加载到内存中是不可能的。要在不使用那么多 RAM 的情况下使用词嵌入,可以.vec逐行读取(通常是纯文本)文件并将其存储到数据库中(稍后您可以访问该数据库以请求词向量)。但是,要获得带有 fasttext 的 OOV 向量,您需要使用这些.bin文件并将其加载到内存中。有没有办法避免加载整个.bin文件?

0 投票
1 回答
7125 浏览

python-3.x - 无法在 Windows 上为 python 安装 fastText。

所以我无法在 Windows 上为 python 安装 fasttext。我按照this issue中提到的方法

当我输入python setup.py install时,我收到以下错误:

error: command 'C:\\Program Files (x86)\\Microsoft Visual Studio 14.0\\VC\\BIN\\x86_amd64\\cl.exe' failed with exit status 2

我尝试在https://www.lfd.uci.edu/~gohlke/pythonlibs/#fasttext使用轮子。它确实安装了一个模块,但是该模块的名称是fasttext,这与按照Readme.md. 此外fasttext,确实安装的模块无法加载预建模型,如wiki.de.bin. 我收到一条错误消息说Cannot load ../fasttext/wiki.es/wiki.es.bin due to C++ extension failed to allocate the memory Relevant issue

我在这里创建了一个问题并在这里提出了同样的问题,希望能得到这个社区的更快回应。

0 投票
1 回答
451 浏览

c++ - Mac OS 上的 Pyfasttest 安装失败:致命错误:找不到“随机”文件

错误消息:
src/pyfasttext.cpp:648:10:致命错误:找不到“随机”文件
#include。^~~~~~~~。生成 1 个警告和 1 个错误。
错误:命令“gcc”失败,退出状态为 1


已安装 gcc 和 LLVM...
UK-xxxx:vercheng$ gcc --version
配置为:--prefix=/Library/Developer/CommandLineTools/usr --with-gxx-include-dir=/usr/include/c++/ 4.2.1
Apple LLVM 版本 10.0.0 (clang-1000.10.40.1)
目标:x86_64-apple-darwin17.7.0 线程模型:posix InstalledDir:/Library/Developer/CommandLineTools/usr/bin


试过这个:https://github.com/vrasneur/pyfasttext/issues/24
没有帮助

谢谢

0 投票
1 回答
270 浏览

python - pip install 2 packages from requirements one after the other

I want to install fasttext using pip. But fasttext needs Cython. The error can be seen here:

To solve this from the command line, I would do:

and it would work.

But here, I need to install my packages from a single requirements.txt file like this: pip install -r requirements.txt.

If my requirements.txt file looks like this:

It still gives me the error that fasttext needs Cython to be installed.

Is there a way, all in a single requirements.txt file, to ask pip to wait until Cython is installed to launch the fasttext install?

0 投票
1 回答
2917 浏览

cluster-analysis - FastText的聚类方法

我正在使用预训练的 fastText ( https://fasttext.cc/ ) 向量对短聊天消息进行聚类。这意味着结果向量将是组成消息的标记的平均值。

我最初开始使用 k-means,但我现在想知道它是否是正确的选择。例如,K-means 使用欧几里得距离,而在大多数情况下,词嵌入相似度是使用余弦相似度计算的。

在这种情况下如何选择合适的聚类方法?

0 投票
2 回答
548 浏览

python-3.x - 使用 Gensim 实现 Word 到向量模型

我们正在尝试为下面给出的一组单词实现一个单词向量模型。

我们正在使用这段代码:

但是,我们收到此错误:

0 投票
2 回答
5093 浏览

python - 继续训练 FastText 模型

我已经下载了一个.binFastText 模型,并按gensim如下方式使用它:

我想继续训练模型以使其适应我的领域。在检查了 FastText 的 GithubGensim 文档之后,使用此人提出的修改似乎目前不可行(尚未合并)

我错过了什么吗?

0 投票
1 回答
255 浏览

tensorflow - 是否有任何可以识别数字集群本身的无监督聚类技术?

我检查了 gensim、fasttext、sklearn 上的无监督聚类,但没有找到任何文档可以使用无监督学习对文本数据进行聚类,而无需提及要识别的聚类数量

例如在 sklearn KMneans 聚类中

我必须在哪里提供 n_clusters。

就我而言,我有文本,它应该自动识别其中的集群数量并对文本进行集群。非常感谢任何参考文章或链接。