问题标签 [fasttext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
deep-learning - 使用最近邻来预测带有 fasttext 的文本分类
我可能误解了快速文本/深度学习如何用于分类,我想考虑最近邻来预测标签。我工作的目的是用同义词预测标签。
我用 fasttext 训练一个大数据集:
spam_status.txt 使用正则表达式来标记包含单词“skype”的消息:
还有很多其他带有其他标签的消息,如果没有找到,则为“ok”。
“skype”的最近邻居是(带有fasttext nn models/sem.bin
):
- 电子邮件
- 振动器
- 电子邮件
- skp
这很好,fasttext 给了我很好的相似词。但如果我问一个预测:
为什么这里不考虑NN?
cmake - 防止 cmake 使用某些 CPU 功能
我正在一台机器上构建 fastText 库,但在另一台具有不同 CPU 的机器上运行它。我是这样构建的:
当我在另一台机器上运行它时,我收到“非法指令”错误。通过比较 /proc/cpuinfo 的输出,我发现后者的机器不支持以下 CPU 标志:
如何防止 cmake(或 make)使用这些功能?我希望能够在一台机器上编译库并能够在另一台机器上使用它。
fasttext - 在另一个分类器中利用从 fasttext 分类模型中提取的词向量
我正在使用 fasttext 将患者的医学文本注释与入院决定(分类)相关联。这类似于情绪分析。我得到了不错的准确性。但是,我也有结构化的定量数据,我想利用这些数据进一步提高模型的准确性。计划是为每个患者的文本注释提取词向量嵌入(整个文本注释的一个向量),并将其与患者的定量数据相结合,以构建另一个性能更好的分类器。
令我惊讶的是,即使不添加定量数据,我也无法使用 fasttext 提供的词向量,使用上面学习的模型来构建另一个可以匹配 fasttext 分类模型性能的分类器。
我只是使用经过训练的 fasttext 模型和最初用于训练模型的相同文本注释来调用获取词向量函数。
难道我做错了什么?感谢任何输入。我在 R 中使用 fastTextR 包。谢谢。
python - 如何使 2 个版本的 Fasttext Python 包装器一起工作?
我们使用 Facebook 的 Fasttext 惊人的库已经有一段时间了。我们使用 python 包装器( https://pypi.org/project/fasttext/ )访问训练好的模型。它曾经是一个第三方库,但现在由 Facebook维护并合并到他们的存储库中。
问题是这两个包装器不兼容。旧的通过import fasttext
(小写)导入,新的通过导入import fastText
。API 也有些不同。但最重要的是,新库不支持旧 Fasttext 版本训练的模型,而旧版本支持它们,但不支持新训练的模型。
我们计划将我们所有的模型迁移到新的 Fasttext 版本(它具有量化并且据说速度更快),但是我们需要时间来支持这两种类型的模型。所以我们需要两个包装器并排工作。
将它们安装在一起的问题在于,尽管模块名称不同,它们仍试图通过 pip ( fasttext
) 安装在相同的目录中。所以其中一个会覆盖另一个。
如何让他们并肩工作?最好在同一个安装前缀目录中。
python - 使用 anaconda 在 Windows 10 上安装 fasttext
我正在尝试使用以下命令在带有 Windows 10 的 anaconda 中安装 fasttext:pip install fasttext,如下所述:https ://pypi.org/project/fasttext/
错误消息是:
和
你能告诉我如何解决这个问题吗?
列出的唯一要求是 Cython,我有:
fasttext - Read N words 和 Number of words 的区别:fasttext 中的 M
字数:M表示什么?为什么它与Read N words不同?
fasttext - fasttext 的句子向量
我尝试在 python 中为单行英文在 fasttext 中创建句子向量,但我得到的只是与 fasttext 中的 CLI 相关的解决方案。
我想要一个函数或库,可以轻松地为我提供英文文本形式的输入句子的句子向量,我可以在我的 python 脚本中使用它。
javascript - 如何在谷歌扩展上运行 fastText 模型?
我正在尝试将训练有素的 fastText 模型集成到 Google Extension 中以进行文本分类。
有几个类似的 fastText javascript 包装器,但它们都运行在服务器端的 node.js 上,而据我所知,chrome 扩展运行在客户端
有什么方法可以在 Chrome 扩展中运行模型预测?
非常感谢
deep-learning - 减小 fasttext bin 文件的大小
目前 fastText wiki.en.bin 的 bin 文件约为 8GB。有没有这个大小的一半的版本?bin 文件由模型和从大型 wiki 语料库生成的预训练向量组成。有没有更小的en。使低档机器更容易使用的版本?加载它会占用太多内存。
或者要获得一个较小的 bin 文件以用于 fasttext,我应该用一组较小的并行语料库训练我自己的一组 fasttext 向量吗?
r - 字典不受输入影响?
包中有一个get_dictionary()
函数fastrtext
,我以为它会返回字典中的所有单词。但是,当我设置wordNgrams
为 2 或 3 时,它返回的单词列表与设置为 1 时得到的单词列表完全相同wordNgrams
。有人能告诉我这里发生了什么吗?谢谢!