问题标签 [term-document-matrix]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R:TermDocumentMatrix - 创建时出错
我正在尝试获取 twitter 数据并创建 wordcloud,但我的代码在创建 TermDocumentMatrix 时出错。我的代码如下
创建 TermDocumentMatrix 之前没有错误。我得到的错误如下
mclapply(x$content[i], function(d) tm_reduce(d, x$lazy$maps)) 中的警告:调度核心 1 在用户代码中遇到错误,作业的所有值都会受到影响 mclapply(unname( content(x)), termFreq, control) : 计划核心 1 在用户代码中遇到错误,作业的所有值都会受到影响错误”堆栈跟踪(最里面的第一个):74:FUN
73:lapply
72:setNames
71:as.list.VCorpus
70:as.list
69:lapply
68:meta.VCorpus
67:meta
66: TermDocumentMatrix.VCorpus
65 :TermDocumentMatrix
64 : as.matrix
63:观察事件处理程序
1:运行应用程序
我已经添加了lazy = TRUE
,content_transformer(tolower)
但仍然出现错误。
r - R:创建 termDocumentMatrix() 对象时出错
这是我用来为训练数据创建 termdocumentmatrix 对象的代码:
它有效!机器没有抱怨。
但是,当我使用相同的技术为验证数据集创建一个时,机器会抱怨!
这是我用来为验证集创建 termdocumentmatrix 对象的代码。请注意,唯一的区别是我在控件中添加了“字典”参数:
但是,我不断收到以下错误消息:
simple_triplet_matrix 中的错误(i = i,j = j,v = as.numeric(v),nrow = length(allTerms),:'i,j,v'不同的长度
我已经阅读了很多帖子,包括:
- 仅当 # terms > 3000 时 DocumentTermMatrix 失败并出现奇怪的错误
- Twitter 数据分析 - 术语文档矩阵中的错误
- twitter 数据 <- termdocumentmatrix 中的错误
- Twitter 数据分析 - 术语文档矩阵中的错误
我尝试了他们所有建议的解决方案,但没有一个有效。
我想补充的一点是,只有当我使用超过 2000 条推文时才会出现问题。
关于输入数据的注意事项:
输入数据是一个包含两列的数据表,其中一列名为“SentimentText”(您在上面的代码中看到)。
在这一列中,每一行是一条推文,每条推文是一个文本字符串,即 character()。
一条示例推文,也就是一个行数据,如下所示:“我今天过得很愉快!:>”
非常感谢任何帮助!
text-mining - 将 TermDocumentMatrix 导入 R
我正在研究 R 的 tm 包中的定性分析项目。我已经建立了一个语料库并创建了一个术语文档矩阵,长话短说我需要编辑我的术语文档矩阵并合并它的一些行。为此,我已将其从 R 中导出,使用
然后我将 csv 文件导入回 R,但我正在努力弄清楚如何让 R 将其读取为 aTermDocumentMatrix
或DocumentTermMatrix
.
我尝试使用以下示例代码的建议但无济于事。
它似乎一直在阅读我的矩阵,就好像它是一个语料库,每个单元格都是一个文档。
是否有任何方法可以导入 csv 矩阵,该矩阵将被读取为termdocumentmatrix
或documenttermmatrix
不让 R 读取 csv,就好像每个单元格都是文档一样?
r - 空词文档矩阵
每当我尝试检查我的频率时,我似乎遇到了问题。词和联想。
当我制作 tdm 时,我得到以下信息: TermDocumentMatrix
我可以在大量文档中看到我有很多要使用的术语。然而!
当我尝试检查“tdm”的内容时,我得到以下信息: Inspecting the TDM
tdm怎么一下子就空了?
希望有人可以帮助
r - R:支持向量机-TermDocumentMatrix上的自然语言处理
我已经开始从事一个需要自然语言处理并在 R 中建立支持向量机 (SVM) 模型的项目。
我想生成一个包含所有标记的术语文档矩阵。
例子:
然后我生成了一个 TDM:
我实际上在数据集中有三个文件:“从第 2 个月开始,未测量 AST 和总胆红素。”,“16:其他 - 评论栏中需要评论;07/02/2004/GENOTYPING;SF- 基因分型同意直到T4.",
"M6 离访问窗口还有 13 天" 所以它应该显示 3 列文件。但我这里只显示一列。
有人可以给我一些建议吗?
r - R:mgsub之后的DocumentTermMatrix错误频率
我有一个 DocumentTermMatrix,我想替换本文档中的特定术语并创建一个频率表。
起点是原始文件,如下:
当我创建原始文档的频率表时,我得到了正确的结果:
到目前为止,一切都很好。但是,如果替换文档中的某些术语,则新的频率表会得到错误的结果:
显然或者文档中的某些索引可能是错误的,因为即使是相同的术语在计算术语时也不会被视为相同。
这个结果应该是理想的情况:
谁能帮我找出问题所在?
提前谢谢
r - 使用 R 进行文本挖掘:使用 sub
我正在使用 R 进行一个项目,并且我开始弄脏它。
在第一部分中,我尝试清理向量 msg 的数据。但是后来当我构建 时termdocumentmatrix
,这些字符仍然出现。我想删除少于 4 个字母的单词并删除标点符号
r - 使用 quanteda 逐步创建 dfm
我想分析一个大(n = 500,000)个文档语料库。我正在使用quanteda
预期 会比tm_map()
from更快tm
。我想逐步进行,而不是使用dfm()
. 我有这样做的理由:在一种情况下,我不想在删除停用词之前进行标记,因为这会导致许多无用的二元组,在另一种情况下,我必须使用特定于语言的程序对文本进行预处理。
我希望实现这个序列:
1)删除标点符号和数字
2)删除停用词(即在标记化之前以避免无用的标记)
3)使用 unigrams 和 bigrams 进行标记
4)创建 dfm
我的尝试:
奖金问题
如何删除稀疏令牌quanteda
?(即相当于removeSparseTerms()
in tm
。
更新
根据@Ken的回答,这里是逐步进行的代码quanteda
:
1)删除自定义标点和数字。例如,请注意 ie2010 语料库中的“\n”
关于人们可能更喜欢预处理的原因的进一步说明。我目前的语料库是意大利语,这种语言的文章与带有撇号的单词相关联。因此,顺子dfm()
可能导致不精确的标记化。例如:
将为同一个单词(“un'abile”和“l'abile”)生成两个单独的标记,因此这里需要一个额外的步骤gsub()
。
2) 在quanteda
标记化之前,无法直接在文本中删除停用词。在我之前的示例中,必须删除“l”和“un”,以免产生误导性的二元组。这可以tm
用tm_map(..., removeWords)
.
3) 代币化
4)创建dfm:
5)去除稀疏特征
r - 如何在 TermDocumentMatrix 中将行合并为一行?
我正在尝试将行合并到行中TermDocumentMatrix
(我知道每一行代表每个单词)
ex) cabin, staff -> crews
因为“客舱、员工和船员”的意思相同,所以我试图将代表“客舱、员工”的行合并为代表“船员”的一行。
但是,它根本不起作用。
R 说argument "weighting" is missing, with no default
我输入的代码如下
在 TermDocumentMatrix 中组合行可能不是正确的方法
请修复此代码或建议更好的方法来解决此问题。
提前致谢。
r - 在R中将频率表直接转换为TDM
我有以下数据,其中包含我使用 Python 脚本提取的“频率”信息。我想使用这些信息WordCloud2
在 R中生成一个。
由于我已经在上一步中完成了数据预处理和清理,因此我无需执行我正在阅读的所有教程中向我解释的步骤,例如:
但是,我仍然需要将我的数据转换为适当的矩阵,以便正确对其进行索引以生成 a WordCloud
,此索引过程通常包括以下步骤:
我一直在寻找应该采用什么格式的示例,以便我可以将频率表直接编码为WordCloud2
. 谁能指出我的代码方向,因为到目前为止直接将我的表调用到 TDM 中还没有工作,例如:
我收到的错误如下:
尝试时,如下所示使用as.TermDocumentMatrix
,我收到以下错误: