“text2vec”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

174 浏览

r - R：如何将数值变量添加到稀疏矩阵？

考虑以下示例

现在，我可以使用excellenttext2vec得到一个与列对应的稀疏矩阵text。为此，我只需要遵循 text2vec 教程：

这个 dtm 稀疏矩阵可以输入到 ML 模型中。但我的问题是：我怎样才能使用value变量？

也就是说，作为 glmnet 或 xgboost 中的输入预测器，我想使用value包含一些有价值信息的稀疏矩阵（来自文本变量）以及我的变量。我怎样才能做到这一点？我们能否以某种方式向稀疏矩阵添加信息？

谢谢！

2017-06-08T00:36:41.953

0 投票

1 回答

489 浏览

r - H20：如何在文本数据上使用梯度提升？

我正在尝试实现一个非常简单的 ML 学习问题，我使用文本来预测一些结果。在 R 中，一些基本示例是：

导入一些虚假但有趣的文本数据

用于text2vec获取我的文本的稀疏矩阵表示（另请参见https://github.com/dselivanov/text2vec/blob/master/vignettes/text-vectorization.Rmd）

最后，训练算法（例如，使用）以使用我的稀疏矩阵caret进行预测。output

我的问题是：

我看到了如何将数据导入到h20usingspark_read_csv和. 但是，对于上面的第 2 点和第 3 点，我完全迷失了。rsparklingas_h2o_frame

有人可以给我一些提示或告诉我这种方法是否可行h2o？

非常感谢！！

r apache-spark h2o sparklyr text2vec

2017-06-14T21:28:08.543

0 投票

2 回答

144 浏览

r - 为什么我在使用两个看似相同的稀疏矩阵创建 Jaccard 相似度矩阵时会得到两种不同的性能

当我尝试使用 text2vec 包中的 sim2() 创建 Jaccard 相似度矩阵时，我对一个奇怪的性能问题感到困惑。我有一个稀疏矩阵 [210,000 x 500]，我想获得上面提到的 Jaccard 相似度矩阵。当我直接尝试在 sim2 函数中使用矩阵时，它需要 30 多分钟，并且错误消息中的 culminutes

这是我使用的 R 脚本：

这是我在运行脚本半小时后收到的错误消息：

文件 ../Core/cholmod_sparse.c 第 92 行的 Cholmod 错误“问题太大”。

但是，当我从原始矩阵中子集另一个稀疏矩阵时，使用所有行并运行脚本，只需要 3 分钟，并且成功生成了 Jaccard 相似度矩阵（它本身就是一个稀疏矩阵）。

这个运行成功。这里发生了什么？我所做的就是将我的 sparse_matrix 子集到另一个矩阵中（使用原始矩阵的所有行）并使用第二个稀疏矩阵。

澄清一下，my_sparse_mx 有 210,000 行（我使用以下代码创建了它有这么多行：

然后在其他一些过程中相应地用 1 填充它。另外，当我做 nrows(my_sparse_mx) 时，我仍然得到 210,000。

我想知道为什么会这样。

r sparse-matrix similarity text2vec

2017-06-23T08:36:54.537

0 投票

1 回答

402 浏览

r - 如何在 R Studio 中将文本字段转换为 SVM 的数字/向量空间？

我正在尝试训练支持向量机来帮助检测字符串之间的相似性。我的训练数据由两个文本字段和一个包含 0 或 1 以表示相似性的第三个字段组成。最后一个字段是在编辑距离操作的帮助下计算的。我知道在继续之前我需要将两个文本字段转换为数值。我希望找出实现这一目标的最佳方法是什么？

训练数据如下所示：

我一直在尝试使用text2vec库，使用这个有用的小插图作为指南。这样做，我大概可以表示向量空间中的一个字段。

但是我怎样才能使用这个库来同时管理两个文本字段呢？
我应该将两个字符串字段连接成一个字段吗？
text2vec是最好的方法吗？

将用于管理其中一个字段的代码：

r svm data-mining text2vec vector-space

2017-07-03T21:21:55.907

0 投票

1 回答

204 浏览

r - 带有插入符号 SVM 警告消息的 Text2Vec 分类

我正在处理text2vec包和caret. text2vec在使用caret. 目标是使用标记的训练数据识别两个字符串之间的字符串相似性。

但是，在训练线性 SVM 模型时，我收到了许多警告消息，摘录如下：

警告消息：1：在 svm.default(x = as.matrix(x), y = y, kernel = "linear", ... :
变量“流感”和“perindoprilindapamide”和“bisprololhct.1”和 'creon.1' 和 'kreon.1' 和 'paratramadol.1' 常数。无法缩放数据。

您能帮我理解这些警告以及如何解决无法缩放数据吗？

原始训练数据的摘录：

构建 SVM 模型的代码：

r svm r-caret text2vec

2017-07-16T11:30:06.697

0 投票

1 回答

488 浏览

r - 带有插入符号的 Text2Vec 分类 - 朴素贝叶斯警告消息

有关更多上下文，请参阅此处列出的问题。

我尝试使用使用构建的文档术语矩阵text2vec来训练使用包的朴素贝叶斯 ( nb) 模型caret。但是，我收到此警告消息：

警告消息：在 eval(xpr, envir = envir) 中：Fold01.Rep1 的模型拟合失败：usekernel=FALSE, fL=0, adjust=1 NaiveBayes.default(x, y, usekernel = FALSE, fL = param$ 中的错误fL, ...) ：变量中至少一类的零方差：

请帮助我理解此消息以及我需要采取哪些步骤来避免模型拟合失败。我觉得我需要从 DTM 中删除更多稀疏术语，但我不确定。

构建模型的代码：

构建文档术语矩阵 (Text2Vec) 的代码：

r r-caret naivebayes text2vec

2017-07-16T13:04:02.357

0 投票

2 回答

384 浏览

r - 如何仅从存储的单词列表中生成 text2vector 中的文档术语矩阵

text2vec 中用于向量化文本并仅使用指示的单词列表实现 dtm 的语法是什么？

如何仅在指定特征上矢量化和生成文档术语矩阵？如果特征没有出现在文本中，则变量应保持为空。

我需要生成与运行建模的 dtm 中的列完全相同的术语文档矩阵，否则我无法在新文档上使用随机森林模型。

r text-mining text2vec

2017-07-28T12:34:22.293

0 投票

1 回答

169 浏览

r - TM，Quanteda，text2vec。根据正则表达式模式获取单词列表中术语左侧的字符串

我想分析一个包含多种语言的姓名、地址和电话号码的大文本文件夹。

这些通常会以“地址”、“电话号码”、“姓名”、“公司”、“医院”、“送货人”一词开头。我会有一本这些词的字典。

我想知道文本挖掘工具是否适合这项工作。我想为所有这些文档创建一个语料库，然后在给定字典条目的右侧或下方找到满足特定（我正在考虑正则表达式标准）的文本。

R中的数据挖掘包中是否有这样的语法，即。获取单词列表条目右侧或下方的字符串，满足特定模式的字符串？

如果不是，R中的工具会更适合做这项工作吗？

r tm quanteda text2vec

2017-07-31T08:19:23.270

0 投票

1 回答

102 浏览

text2vec - text2vec 与 RHadoop 的兼容性

目前我们在AWS EC2（单实例）中使用text2vec处理大数据集，未来文本数据会越来越大，我们可能会尝试RHadoop（MapReduce）架构，不知道是否可以兼容text2vec和 RHadoop（MapReduce）。

text2vec

2017-08-13T03:02:42.143

0 投票

1 回答

882 浏览

r - 在R中使用带有词根的txt文件进行词形化

我想使用结构如下的波兰引理的外部 txt 文件：（许多其他语言的引理来源http://www.lexiconista.com/datasets/lemmatization/）

什么包和什么语法，可以让我使用这样的 txt 数据库来对我的词袋进行词形还原。我意识到，对于英语有 Wordnet，但对于那些想将这个功能用于稀有语言的人来说没有运气。

如果没有，这个数据库是否可以转换为对任何提供词形还原的包有用？也许通过将其转换为广泛的形式？例如，免费的 AntConc concordancer 使用的表格，( http://www.laurenceanthony.net/software/antconc/ )

简而言之：如何在任何已知的 CRAN R 文本挖掘包中使用 txt 文件中的词条进行词条化？如果是这样，如何格式化这样的txt文件？

更新：亲爱的@DmitriySelivanov 我摆脱了所有变音符号，现在我想将它应用于 tm corpus "docs"

我尝试将其作为标记器

它向我抛出了一个错误：

该函数可以使用文本向量作为魅力。

r text-mining tm quanteda text2vec

2017-08-18T18:02:46.160

问题标签 [text2vec]

Reference