问题标签 [text2vec]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R:如何将数值变量添加到稀疏矩阵?
考虑以下示例
现在,我可以使用excellenttext2vec
得到一个与列对应的稀疏矩阵text
。为此,我只需要遵循 text2vec 教程:
这个 dtm 稀疏矩阵可以输入到 ML 模型中。但我的问题是:我怎样才能使用value
变量?
也就是说,作为 glmnet 或 xgboost 中的输入预测器,我想使用value
包含一些有价值信息的稀疏矩阵(来自文本变量)以及我的变量。我怎样才能做到这一点?我们能否以某种方式向稀疏矩阵添加信息?
谢谢!
r - H20:如何在文本数据上使用梯度提升?
我正在尝试实现一个非常简单的 ML 学习问题,我使用文本来预测一些结果。在 R 中,一些基本示例是:
导入一些虚假但有趣的文本数据
用于text2vec
获取我的文本的稀疏矩阵表示(另请参见https://github.com/dselivanov/text2vec/blob/master/vignettes/text-vectorization.Rmd)
最后,训练算法(例如,使用)以使用我的稀疏矩阵caret
进行预测。output
我的问题是:
我看到了如何将数据导入 到h20
usingspark_read_csv
和. 但是,对于上面的第 2 点和第 3 点,我完全迷失了。rsparkling
as_h2o_frame
有人可以给我一些提示或告诉我这种方法是否可行h2o
?
非常感谢!!
r - 为什么我在使用两个看似相同的稀疏矩阵创建 Jaccard 相似度矩阵时会得到两种不同的性能
当我尝试使用 text2vec 包中的 sim2() 创建 Jaccard 相似度矩阵时,我对一个奇怪的性能问题感到困惑。我有一个稀疏矩阵 [210,000 x 500],我想获得上面提到的 Jaccard 相似度矩阵。当我直接尝试在 sim2 函数中使用矩阵时,它需要 30 多分钟,并且错误消息中的 culminutes
这是我使用的 R 脚本:
这是我在运行脚本半小时后收到的错误消息:
文件 ../Core/cholmod_sparse.c 第 92 行的 Cholmod 错误“问题太大”。
但是,当我从原始矩阵中子集另一个稀疏矩阵时,使用所有行并运行脚本,只需要 3 分钟,并且成功生成了 Jaccard 相似度矩阵(它本身就是一个稀疏矩阵)。
这个运行成功。这里发生了什么?我所做的就是将我的 sparse_matrix 子集到另一个矩阵中(使用原始矩阵的所有行)并使用第二个稀疏矩阵。
澄清一下,my_sparse_mx 有 210,000 行(我使用以下代码创建了它有这么多行:
然后在其他一些过程中相应地用 1 填充它。另外,当我做 nrows(my_sparse_mx) 时,我仍然得到 210,000。
我想知道为什么会这样。
r - 如何在 R Studio 中将文本字段转换为 SVM 的数字/向量空间?
我正在尝试训练支持向量机来帮助检测字符串之间的相似性。我的训练数据由两个文本字段和一个包含 0 或 1 以表示相似性的第三个字段组成。最后一个字段是在编辑距离操作的帮助下计算的。我知道在继续之前我需要将两个文本字段转换为数值。我希望找出实现这一目标的最佳方法是什么?
训练数据如下所示:
我一直在尝试使用text2vec库,使用这个有用的小插图作为指南。这样做,我大概可以表示向量空间中的一个字段。
- 但是我怎样才能使用这个库来同时管理两个文本字段呢?
- 我应该将两个字符串字段连接成一个字段吗?
- text2vec是最好的方法吗?
将用于管理其中一个字段的代码:
r - 带有插入符号 SVM 警告消息的 Text2Vec 分类
我正在处理text2vec
包和caret
. text2vec
在使用caret
. 目标是使用标记的训练数据识别两个字符串之间的字符串相似性。
但是,在训练线性 SVM 模型时,我收到了许多警告消息,摘录如下:
警告消息:1:在 svm.default(x = as.matrix(x), y = y, kernel = "linear", ... :
变量“流感”和“perindoprilindapamide”和“bisprololhct.1”和 'creon.1' 和 'kreon.1' 和 'paratramadol.1' 常数。无法缩放数据。
您能帮我理解这些警告以及如何解决无法缩放数据吗?
原始训练数据的摘录:
构建 SVM 模型的代码:
r - 带有插入符号的 Text2Vec 分类 - 朴素贝叶斯警告消息
有关更多上下文,请参阅此处列出的问题。
我尝试使用使用 构建的文档术语矩阵text2vec
来训练使用包的朴素贝叶斯 ( nb
) 模型caret
。但是,我收到此警告消息:
警告消息:在 eval(xpr, envir = envir) 中:Fold01.Rep1 的模型拟合失败:usekernel=FALSE, fL=0, adjust=1 NaiveBayes.default(x, y, usekernel = FALSE, fL = param$ 中的错误fL, ...) :变量中至少一类的零方差:
请帮助我理解此消息以及我需要采取哪些步骤来避免模型拟合失败。我觉得我需要从 DTM 中删除更多稀疏术语,但我不确定。
构建模型的代码:
构建文档术语矩阵 (Text2Vec) 的代码:
r - 如何仅从存储的单词列表中生成 text2vector 中的文档术语矩阵
text2vec 中用于向量化文本并仅使用指示的单词列表实现 dtm 的语法是什么?
如何仅在指定特征上矢量化和生成文档术语矩阵?如果特征没有出现在文本中,则变量应保持为空。
我需要生成与运行建模的 dtm 中的列完全相同的术语文档矩阵,否则我无法在新文档上使用随机森林模型。
r - TM,Quanteda,text2vec。根据正则表达式模式获取单词列表中术语左侧的字符串
我想分析一个包含多种语言的姓名、地址和电话号码的大文本文件夹。
这些通常会以“地址”、“电话号码”、“姓名”、“公司”、“医院”、“送货人”一词开头。我会有一本这些词的字典。
我想知道文本挖掘工具是否适合这项工作。我想为所有这些文档创建一个语料库,然后在给定字典条目的右侧或下方找到满足特定(我正在考虑正则表达式标准)的文本。
R中的数据挖掘包中是否有这样的语法,即。获取单词列表条目右侧或下方的字符串,满足特定模式的字符串?
如果不是,R中的工具会更适合做这项工作吗?
text2vec - text2vec 与 RHadoop 的兼容性
目前我们在AWS EC2(单实例)中使用text2vec处理大数据集,未来文本数据会越来越大,我们可能会尝试RHadoop(MapReduce)架构,不知道是否可以兼容text2vec和 RHadoop(MapReduce)。
r - 在R中使用带有词根的txt文件进行词形化
我想使用结构如下的波兰引理的外部 txt 文件:(许多其他语言的引理来源http://www.lexiconista.com/datasets/lemmatization/)
什么包和什么语法,可以让我使用这样的 txt 数据库来对我的词袋进行词形还原。我意识到,对于英语有 Wordnet,但对于那些想将这个功能用于稀有语言的人来说没有运气。
如果没有,这个数据库是否可以转换为对任何提供词形还原的包有用?也许通过将其转换为广泛的形式?例如,免费的 AntConc concordancer 使用的表格,( http://www.laurenceanthony.net/software/antconc/ )
简而言之:如何在任何已知的 CRAN R 文本挖掘包中使用 txt 文件中的词条进行词条化?如果是这样,如何格式化这样的txt文件?
更新:亲爱的@DmitriySelivanov 我摆脱了所有变音符号,现在我想将它应用于 tm corpus "docs"
我尝试将其作为标记器
它向我抛出了一个错误:
该函数可以使用文本向量作为魅力。