问题标签 [tm]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何将 doc-term 矩阵转换为 term-term 矩阵?
我正在考虑将 dtm 转换为术语术语矩阵,以下内容不正确:
怎么可能做到?
r - R 词干字符串/文档/语料库
我正在尝试在 R 中做一些词干处理,但它似乎只适用于单个文档。我的最终目标是一个术语文档矩阵,它显示文档中每个术语的频率。
这是一个例子:
此方法适用于词干部分,但不适用于术语文档矩阵部分:
因此,我尝试先创建术语文档矩阵,但这次没有词干:
这里的词显然不是词干的。
有什么建议么?
r - 使用 R 中的 txt 文件在 tm 中制作军团时出错
我正在尝试使用 R 中的 tm 包来执行一些文本分析。我收到以下错误:
我已手动更改目录
我无法理解这个错误,请建议我在哪里犯了错误。
r - 将 CSV 文件读入语料库 - R 中的 tm 包
我想将 csv 文件的内容读入数据帧源,但是当我尝试创建语料库时,它总是说
代码是
ds
是一个数据框源 &m
是一个列表,它将内容、主题等分配给数据框的字段。
r - R 中的 tm 包挂起小数据集
我有一个包含 30k 条记录(公司名称和其他属性)的 data.frame。dba_nm
是最长元素 < 60 个字符的公司名称字段。
当我尝试以下代码时,R 会话的内存使用量从 100MB 上升到 3GB 并挂起?tm::VectorSource
:
html - 如何将 HTML 文件中的特定内容提取为 TXT 格式?
所以我的问题是我已经将很多论坛帖子提取到单独的 txt 文件中,这些文件现在位于我的硬盘上。每个文件都包含我想要提取的信息,其中一些我已经弄清楚如何提取。我需要提取的信息格式如下:
在同一个“html块”内
1:(x)此线程中
的消息 2:消息是回复(一些 html 代码)A HREF =“链接”(一些 html 代码=
在任务 1 中只需要提取 x
在任务 2 中我需要提取消息回复的链接
我已经查看了不同的 tm 和 XML 包,但还没有真正找到要使用的内容。任何建议表示赞赏。
这是其中一个 txt 文件的样子
tm - wordcloud 包:获取“strwidth(...)中的错误:'cex' 值无效”
我在 R 2.15.1 中使用 tm 和 wordcloud 包。我正在尝试从 DTM 制作文字云。这是代码:
我从最后一个命令中收到以下错误:
我在另一个 DTM 上使用了相同的代码,它运行良好,我得到了词云。有人可以告诉我解决该错误的方法吗?
拉维
r - 创建 DocumentTermMatrix 时的 Unicode 符号
我在 R 中使用来自 CRAN 的 TM 包。我在创建基于语料库的 DocumentTermMatrix 时遇到问题。问题是当我基于 UTF-8 语料库创建 TermDocumentMatrix 时,一些单词会变成 unicode 符号。
回报:
如果我手动检查语料库,那么我会看到正确的输出。
回报:
有谁知道我怎样才能获得具有正确条款的 TermDocumentMatrix?或者有没有办法将这些 unicode 符号再次转换为“可读”输出?
注意: print(Terms(tdm)) 不包含来自 print(corpus[[1]]) 的单词
r - R DocumentTermMatrix 控制列表不起作用,默默地忽略未知参数
我有两个以下 DTM-s:
当我实现这个时,我看到两个相等的 DTM-s,如果我打开dtmImproved
,会有带有 3 个符号的单词。为什么minWordLength
参数不起作用?谢谢!
c - strptime() 的问题
我正在使用该函数strptime()
从字符串转到struct tm
. 但是,当我检查字段时,有一些没有填写。所以我检查了手册页,但似乎我在做正确的事情,所以现在我不知道出了什么问题。
示例输入字符串:
strptime 函数:
据我了解, %a 代表星期几, %d 代表月份中的某天, %b 代表月份, %Y 代表年份, %T 代表 HH:MM:SS 和 % Z 代表格林威治标准时间。
的输出tm struct
产生输出的代码:
任何朝着正确方向的推动都会非常有帮助。谢谢!