问题标签 [text2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
174 浏览

r - R:如何将数值变量添加到稀疏矩阵?

考虑以下示例

现在,我可以使用excellenttext2vec得到一个与列对应的稀疏矩阵text。为此,我只需要遵循 text2vec 教程:

这个 dtm 稀疏矩阵可以输入到 ML 模型中。但我的问题是:我怎样才能使用value变量?

也就是说,作为 glmnet 或 xgboost 中的输入预测器,我想使用value包含一些有价值信息的稀疏矩阵(来自文本变量)以及我的变量。我怎样才能做到这一点?我们能否以某种方式向稀疏矩阵添加信息?

谢谢!

0 投票
1 回答
489 浏览

r - H20:如何在文本数据上使用梯度提升?

我正在尝试实现一个非常简单的 ML 学习问题,我使用文本来预测一些结果。在 R 中,一些基本示例是:

导入一些虚假但有趣的文本数据

用于text2vec获取我的文本的稀疏矩阵表示(另请参见https://github.com/dselivanov/text2vec/blob/master/vignettes/text-vectorization.Rmd

最后,训练算法(例如,使用)以使用我的稀疏矩阵caret进行预测。output

我的问题是:

我看到了如何将数据导入 到h20usingspark_read_csv和. 但是,对于上面的第 2 点和第 3 点,我完全迷失了。rsparklingas_h2o_frame

有人可以给我一些提示或告诉我这种方法是否可行h2o

非常感谢!!

0 投票
2 回答
144 浏览

r - 为什么我在使用两个看似相同的稀疏矩阵创建 Jaccard 相似度矩阵时会得到两种不同的性能

当我尝试使用 text2vec 包中的 sim2() 创建 Jaccard 相似度矩阵时,我对一个奇怪的性能问题感到困惑。我有一个稀疏矩阵 [210,000 x 500],我想获得上面提到的 Jaccard 相似度矩阵。当我直接尝试在 sim2 函数中使用矩阵时,它需要 30 多分钟,并且错误消息中的 culminutes

这是我使用的 R 脚本:

这是我在运行脚本半小时后收到的错误消息:

文件 ../Core/cholmod_sparse.c 第 92 行的 Cholmod 错误“问题太大”。

但是,当我从原始矩阵中子集另一个稀疏矩阵时,使用所有行并运行脚本,只需要 3 分钟,并且成功生成了 Jaccard 相似度矩阵(它本身就是一个稀疏矩阵)。

这个运行成功。这里发生了什么?我所做的就是将我的 sparse_matrix 子集到另一个矩阵中(使用原始矩阵的所有行)并使用第二个稀疏矩阵。

澄清一下,my_sparse_mx 有 210,000 行(我使用以下代码创建了它有这么多行:

然后在其他一些过程中相应地用 1 填充它。另外,当我做 nrows(my_sparse_mx) 时,我仍然得到 210,000。

我想知道为什么会这样。

0 投票
1 回答
402 浏览

r - 如何在 R Studio 中将文本字段转换为 SVM 的数字/向量空间?

我正在尝试训练支持向量机来帮助检测字符串之间的相似性。我的训练数据由两个文本字段和一个包含 0 或 1 以表示相似性的第三个字段组成。最后一个字段是在编辑距离操作的帮助下计算的。我知道在继续之前我需要将两个文本字段转换为数值。我希望找出实现这一目标的最佳方法是什么?

训练数据如下所示:

我一直在尝试使用text2vec库,使用这个有用的小插图作为指南。这样做,我大概可以表示向量空间中的一个字段。

  • 但是我怎样才能使用这个库来同时管理两个文本字段呢?
  • 我应该将两个字符串字段连接成一个字段吗?
  • text2vec是最好的方法吗?

将用于管理其中一个字段的代码:

0 投票
1 回答
204 浏览

r - 带有插入符号 SVM 警告消息的 Text2Vec 分类

我正在处理text2vec包和caret. text2vec在使用caret. 目标是使用标记的训练数据识别两个字符串之间的字符串相似性。

但是,在训练线性 SVM 模型时,我收到了许多警告消息,摘录如下:

警告消息:1:在 svm.default(x = as.matrix(x), y = y, kernel = "linear", ... :
变量“流感”和“perindoprilindapamide”和“bisprololhct.1”和 'creon.1' 和 'kreon.1' 和 'paratramadol.1' 常数。无法缩放数据。

您能帮我理解这些警告以及如何解决无法缩放数据吗?

原始训练数据的摘录:

构建 SVM 模型的代码:

0 投票
1 回答
488 浏览

r - 带有插入符号的 Text2Vec 分类 - 朴素贝叶斯警告消息

有关更多上下文,请参阅此处列出的问题。

我尝试使用使用 构建的文档术语矩阵text2vec来训练使用包的朴素贝叶斯 ( nb) 模型caret。但是,我收到此警告消息:

警告消息:在 eval(xpr, envir = envir) 中:Fold01.Rep1 的模型拟合失败:usekernel=FALSE, fL=0, adjust=1 NaiveBayes.default(x, y, usekernel = FALSE, fL = param$ 中的错误fL, ...) :变量中至少一类的零方差:

请帮助我理解此消息以及我需要采取哪些步骤来避免模型拟合失败。我觉得我需要从 DTM 中删除更多稀疏术语,但我不确定。

构建模型的代码:

构建文档术语矩阵 (Text2Vec) 的代码:

0 投票
2 回答
384 浏览

r - 如何仅从存储的单词列表中生成 text2vector 中的文档术语矩阵

text2vec 中用于向量化文本并仅使用指示的单词列表实现 dtm 的语法是什么?

如何仅在指定特征上矢量化和生成文档术语矩阵?如果特征没有出现在文本中,则变量应保持为空。

我需要生成与运行建模的 dtm 中的列完全相同的术语文档矩阵,否则我无法在新文档上使用随机森林模型。

0 投票
1 回答
169 浏览

r - TM,Quanteda,text2vec。根据正则表达式模式获取单词列表中术语左侧的字符串

我想分析一个包含多种语言的姓名、地址和电话号码的大文本文件夹。

这些通常会以“地址”、“电话号码”、“姓名”、“公司”、“医院”、“送货人”一词开头。我会有一本这些词的字典。

我想知道文本挖掘工具是否适合这项工作。我想为所有这些文档创建一个语料库,然后在给定字典条目的右侧或下方找到满足特定(我正在考虑正则表达式标准)的文本。

R中的数据挖掘包中是否有这样的语法,即。获取单词列表条目右侧或下方的字符串,满足特定模式的字符串?

如果不是,R中的工具会更适合做这项工作吗?

0 投票
1 回答
102 浏览

text2vec - text2vec 与 RHadoop 的兼容性

目前我们在AWS EC2(单实例)中使用text2vec处理大数据集,未来文本数据会越来越大,我们可能会尝试RHadoop(MapReduce)架构,不知道是否可以兼容text2vec和 RHadoop(MapReduce)。

0 投票
1 回答
882 浏览

r - 在R中使用带有词根的txt文件进行词形化

我想使用结构如下的波兰引理的外部 txt 文件:(许多其他语言的引理来源http://www.lexiconista.com/datasets/lemmatization/

什么包和什么语法,可以让我使用这样的 txt 数据库来对我的词袋进行词形还原。我意识到,对于英语有 Wordnet,但对于那些想将这个功能用于稀有语言的人来说没有运气。

如果没有,这个数据库是否可以转换为对任何提供词形还原的包有用?也许通过将其转换为广泛的形式?例如,免费的 AntConc concordancer 使用的表格,( http://www.laurenceanthony.net/software/antconc/ )

简而言之:如何在任何已知的 CRAN R 文本挖掘包中使用 txt 文件中的词条进行词条化?如果是这样,如何格式化这样的txt文件?

更新:亲爱的@DmitriySelivanov 我摆脱了所有变音符号,现在我想将它应用于 tm corpus "docs"

我尝试将其作为标记器

它向我抛出了一个错误:

该函数可以使用文本向量作为魅力。