“fasttext”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

2588 浏览

python - 使用 gensim 加载 FastText 的法语预训练模型时出错

我正在尝试使用 FastText 的法语预训练二进制模型（从官方FastText 的 github 页面下载）。我需要.bin模型而不是.vec词向量来近似拼写错误和词汇外的词。

但是，当我尝试加载所述模型时，使用：

我收到以下错误：

令人惊讶的是，当我尝试加载英文二进制模型时它工作得很好。

我正在运行 python 3.6 和 gensim 3.5.0。

欢迎任何关于为什么它不适用于法国矢量的想法！

2018-07-23T14:43:44.380

0 投票

0 回答

1039 浏览

javascript - Emscripten：如何使用标头构建 C++ 项目

我想转换这个 C++ 项目（Facebook FastText）

我想跑进去node.js。我首先将它构建为一个项目，emmake make并且我已经获得了链接的 LLVM 目标文件：

但显然这不是位代码！然后我用编译器编译，emmake make VERBOSE=1结果发现它没有使用em++编译器，所以我尝试了cmake：

此时我可以看到em++正在运行

所以我得到以下输出：

结果证明这是一个有效的 javascript 文件，但是在运行它时会导致异常

虽然它应该来自stdin喜欢

这个错误可能是由于stdinnode.js 造成的吗？类似的命令似乎很好，因为它以正确的方式接受和解析参数：

然后我将它模块化emcc -s MODULARIZE=1 -s LEGACY_VM_SUPPORT=1 -s WASM=0 -O1 libfasttext.so -o libfasttext.js，并在节点模块中调用，如：

但是我遇到了同样的错误：exception thrown: 5278216 - Exception catching is disabled, this exception cannot be caught. Compile with -s DISABLE_EXCEPTION_CATCHING=0 or DISABLE_EXCEPTION_CATCHING=2 to catch.

以同样的方式我可以运行它设置noInitialRun:true然后做

但无论如何都有这个错误。

javascript c++node.js emscripten fasttext

2018-07-31T09:15:09.437

0 投票

1 回答

639 浏览

machine-learning - 低 RAM 环境中 Fasttex 的 OOV（词汇表外）词嵌入

有没有办法使用 fasttext 获取 OOV（词汇表外）单词的向量，但不将所有嵌入加载到内存中？

我通常在低 RAM 环境（<10GB RAM）中工作，因此将 7GB 模型加载到内存中是不可能的。要在不使用那么多 RAM 的情况下使用词嵌入，可以.vec逐行读取（通常是纯文本）文件并将其存储到数据库中（稍后您可以访问该数据库以请求词向量）。但是，要获得带有 fasttext 的 OOV 向量，您需要使用这些.bin文件并将其加载到内存中。有没有办法避免加载整个.bin文件？

machine-learning nlp word-embedding fasttext

2018-08-03T15:11:33.493

0 投票

1 回答

7125 浏览

python-3.x - 无法在 Windows 上为 python 安装 fastText。

所以我无法在 Windows 上为 python 安装 fasttext。我按照this issue中提到的方法

当我输入python setup.py install时，我收到以下错误：

error: command 'C:\\Program Files (x86)\\Microsoft Visual Studio 14.0\\VC\\BIN\\x86_amd64\\cl.exe' failed with exit status 2

我尝试在https://www.lfd.uci.edu/~gohlke/pythonlibs/#fasttext使用轮子。它确实安装了一个模块，但是该模块的名称是fasttext，这与按照Readme.md. 此外fasttext，确实安装的模块无法加载预建模型，如wiki.de.bin. 我收到一条错误消息说Cannot load ../fasttext/wiki.es/wiki.es.bin due to C++ extension failed to allocate the memory Relevant issue。

我在这里创建了一个问题，并在这里提出了同样的问题，希望能得到这个社区的更快回应。

python-3.x fasttext

2018-08-04T06:13:40.513

0 投票

1 回答

451 浏览

c++ - Mac OS 上的 Pyfasttest 安装失败：致命错误：找不到“随机”文件

错误消息：
src/pyfasttext.cpp:648:10：致命错误：找不到“随机”文件
#include。^~~~~~~~。生成 1 个警告和 1 个错误。
错误：命令“gcc”失败，退出状态为 1

已安装 gcc 和 LLVM...
UK-xxxx:vercheng$ gcc --version
配置为：--prefix=/Library/Developer/CommandLineTools/usr --with-gxx-include-dir=/usr/include/c++/ 4.2.1
Apple LLVM 版本 10.0.0 (clang-1000.10.40.1)
目标：x86_64-apple-darwin17.7.0 线程模型：posix InstalledDir：/Library/Developer/CommandLineTools/usr/bin

试过这个：https://github.com/vrasneur/pyfasttext/issues/24
没有帮助

谢谢

c++python-3.x macos cython fasttext

2018-08-13T14:39:37.667

0 投票

1 回答

270 浏览

python - pip install 2 packages from requirements one after the other

I want to install fasttext using pip. But fasttext needs Cython. The error can be seen here:

To solve this from the command line, I would do:

and it would work.

But here, I need to install my packages from a single requirements.txt file like this: pip install -r requirements.txt.

If my requirements.txt file looks like this:

It still gives me the error that fasttext needs Cython to be installed.

Is there a way, all in a single requirements.txt file, to ask pip to wait until Cython is installed to launch the fasttext install?

python pip fasttext

2018-08-17T15:12:42.707

0 投票

1 回答

2917 浏览

cluster-analysis - FastText的聚类方法

我正在使用预训练的 fastText ( https://fasttext.cc/ ) 向量对短聊天消息进行聚类。这意味着结果向量将是组成消息的标记的平均值。

我最初开始使用 k-means，但我现在想知道它是否是正确的选择。例如，K-means 使用欧几里得距离，而在大多数情况下，词嵌入相似度是使用余弦相似度计算的。

在这种情况下如何选择合适的聚类方法？

cluster-analysis fasttext

2018-08-22T07:24:49.470

0 投票

2 回答

548 浏览

python-3.x - 使用 Gensim 实现 Word 到向量模型

我们正在尝试为下面给出的一组单词实现一个单词向量模型。

我们正在使用这段代码：

但是，我们收到此错误：

python-3.x machine-learning gensim fasttext

2018-08-23T14:56:05.560

0 投票

2 回答

5093 浏览

python - 继续训练 FastText 模型

我已经下载了一个.binFastText 模型，并按gensim如下方式使用它：

我想继续训练模型以使其适应我的领域。在检查了 FastText 的 Github和Gensim 文档之后，使用此人提出的修改似乎目前不可行（尚未合并）

我错过了什么吗？

python gensim fasttext

2018-08-29T14:47:33.460

0 投票

1 回答

255 浏览

tensorflow - 是否有任何可以识别数字集群本身的无监督聚类技术？

我检查了 gensim、fasttext、sklearn 上的无监督聚类，但没有找到任何文档可以使用无监督学习对文本数据进行聚类，而无需提及要识别的聚类数量

例如在 sklearn KMneans 聚类中

我必须在哪里提供 n_clusters。

就我而言，我有文本，它应该自动识别其中的集群数量并对文本进行集群。非常感谢任何参考文章或链接。

tensorflow scikit-learn gensim unsupervised-learning fasttext

2018-09-20T12:36:04.513

问题标签 [fasttext]

Reference