问题标签 [text2vec]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 获取每个文档的词向量
我偶然发现了 text2vec 包,它在 R 中实现了词嵌入。我一直在成功地尝试它。但是,我一直在尝试在每个文档上实现词向量,就像我在 H2O(python) 中找到的一样https://github.com/h2oai/h2o-tutorials/blob/master/h2o-world-2017/nlp/AmazonReviews。 ipynb
在本教程的第 21 行中,对词向量进行平均,然后将其用作模型中的特征。
我相信问题不在于代码,而在于我们如何获取单词向量并将其分配给每个文档。为了将它们作为功能提供,我只是按照这里提到的教程进行操作。http://text2vec.org/glove.html
r - 如何使用 Glove 词嵌入构建模型并使用 R 中的 text2vec 预测测试数据
我正在使用 GloVe 词嵌入将文本数据分类模型分为两类(即将每个评论分为 2 个类别)。我有两列,一列是文本数据(评论),另一列是二进制目标变量(评论是否可操作)。我能够使用 text2vec 文档中的以下代码为文本数据生成 Glove 词嵌入。
我如何构建模型并生成测试数据的预测?
tf-idf - 如何创建具有字符 n-gram 特征的 tf-idf 矩阵?
如何使用 text2vec 包创建具有字符 n-gram 特征的 tdf-idf 矩阵?
r - 如何使用 text2vec 获取 IDF 向量
是否可以不仅提取转换后的 TF-IDF 术语文档矩阵,还可以提取用于此转换的最新版本 text2vec (0.5.1) 的 IDF 向量?
谢谢!
r - 将 DocumentTermMatrix 转换为 dgTMatrix
我正在尝试通过LDA 实现从tm
-package运行 AssociatedPress 数据集。text2vec
我面临的问题是数据类型的不兼容:AssociatedPress
is a tm::DocumentTermMatrix
which 又是slam::simple_triplet_matrix
. text2vec
但是期望输入x
为.text2vec::lda$fit_transform(x = ...)
Matrix::dgTMatrix
因此,我的问题是:有没有办法强迫DocumentTermMatrix
接受的东西text2vec
?
最小(失败)示例:
...这使:
base::rowSums(x, na.rm = na.rm, dims = dims, ...) : 'x' 必须是至少二维的数组
r - 如何使用 R 中的 text2vec 包中的文档术语矩阵创建 svm 图?
我正在使用 text2vec 包创建一个词汇文档术语矩阵,如下所述:http: //text2vec.org/vectorization.html#vectorization
特别是,我使用的是 e1071 包中的 SVM。我制作了教程中提供的类似词汇术语文档矩阵,并使用以下代码训练了 SVM 分类器:
其中 dtm_train 是文档术语矩阵。
我想知道我们如何使用 plot 函数来绘制模型,就像这样:
情节(分类器,数据)。
我试图这样做:
这将返回以下错误:
plot.svm(svm_classifier, dtm_train) 中的错误:缺少公式。
r - R - 安装 text2vec Ubuntu 虚拟机
我正在尝试text2vec
在 AWS EC2 免费层 Ubuntu VM 上安装。我收到此错误消息:
这是否与我的虚拟机 RAM 的限制有关?无论如何,我如何安装软件包来解决这个错误?前提是我不能掉一毛钱。
r - 如何在新数据上使用构建分类器(基于词嵌入)进行情感分析?
所以我使用text2vec
R 包来构建用于特征选择的词向量化。我是根据 Dmitriy Selivanov 的页面http://text2vec.org/vectorization.html做到的,该页面解释了如何text2vec
在构建分类器之前正确使用。
这是我的代码:
然后我继续使用glmnet
R 包拟合 LASSO 回归模型。
现在我想对我自己的数据使用分类器来对我自己的数据中的情绪进行分类。我的问题是:我是否必须对我的数据应用相同的预处理和标记化功能,然后还要对我的数据中的单词进行矢量化?或者只是简单地对数据使用内置的分类器?
我真的希望找到一些答案谢谢!
nlp - 在 R text2vec 包中 - 如何将 LDA 模型生成的主题分配给相关文档
在 R 实现的 LDA 模型中使用 text2vec 包,但我想知道如何将每个文档分配给主题
在此之后,我想将每个文档分配给相关主题。我正在获取主题下方的术语列表,但我不知道如何映射。
r - 使用带有 text2vec 的预训练模型?
我想使用带有 text2vec 的预训练模型。我的理解是,这里的好处是这些模型已经在大量数据上进行了训练,例如Google News Model。
阅读 text2vec文档,看起来入门代码读取文本数据,然后用它训练模型:
然后文档继续展示如何创建令牌和词汇:
然后,这看起来像是拟合模型的步骤:
我的问题是,众所周知的 Google 预训练 word2vec 模型是否可以在这里使用,而无需依靠我自己的词汇或我自己的本地设备来训练模型?如果是,我怎么能读入它并在 r 中使用它?
我想我在这里误解或遗漏了什么?我可以使用 text2vec 来完成这项任务吗?