问题标签 [tm]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
3595 浏览

r - 如何将 doc-term 矩阵转换为 term-term 矩阵?

我正在考虑将 dtm 转换为术语术语矩阵,以下内容不正确:

怎么可能做到?

0 投票
4 回答
10715 浏览

r - R 词干字符串/文档/语料库

我正在尝试在 R 中做一些词干处理,但它似乎只适用于单个文档。我的最终目标是一个术语文档矩阵,它显示文档中每个术语的频率。

这是一个例子:

此方法适用于词干部分,但不适用于术语文档矩阵部分:

因此,我尝试先创建术语文档矩阵,但这次没有词干:

这里的词显然不是词干的。

有什么建议么?

0 投票
2 回答
790 浏览

r - 使用 R 中的 txt 文件在 tm 中制作军团时出错

我正在尝试使用 R 中的 tm 包来执行一些文本分析。我收到以下错误:

我已手动更改目录

我无法理解这个错误,请建议我在哪里犯了错误。

0 投票
1 回答
2028 浏览

r - 将 CSV 文件读入语料库 - R 中的 tm 包

我想将 csv 文件的内容读入数据帧源,但是当我尝试创建语料库时,它总是说

代码是

ds是一个数据框源 &m是一个列表,它将内容、主题等分配给数据框的字段。

0 投票
1 回答
298 浏览

r - R 中的 tm 包挂起小数据集

我有一个包含 30k 条记录(公司名称和其他属性)的 data.frame。dba_nm是最长元素 < 60 个字符的公司名称字段。

当我尝试以下代码时,R 会话的内存使用量从 100MB 上升到 3GB 并挂起?tm::VectorSource

0 投票
2 回答
542 浏览

html - 如何将 HTML 文件中的特定内容提取为 TXT 格式?

所以我的问题是我已经将很多论坛帖子提取到单独的 txt 文件中,这些文件现在位于我的硬盘上。每个文件都包含我想要提取的信息,其中一些我已经弄清楚如何提取。我需要提取的信息格式如下:

在同一个“html块”内

1:(x)此线程中
的消息 2:消息是回复(一些 html 代码)A HREF =“链接”(一些 html 代码=

在任务 1 中只需要提取 x
在任务 2 中我需要提取消息回复的链接

我已经查看了不同的 tm 和 XML 包,但还没有真正找到要使用的内容。任何建议表示赞赏。

这是其中一个 txt 文件的样子

0 投票
1 回答
6360 浏览

tm - wordcloud 包:获取“strwidth(...)中的错误:'cex' 值无效”

我在 R 2.15.1 中使用 tm 和 wordcloud 包。我正在尝试从 DTM 制作文字云。这是代码:

我从最后一个命令中收到以下错误:

我在另一个 DTM 上使用了相同的代码,它运行良好,我得到了词云。有人可以告诉我解决该错误的方法吗?

拉维

0 投票
1 回答
701 浏览

r - 创建 DocumentTermMatrix 时的 Unicode 符号

我在 R 中使用来自 CRAN 的 TM 包。我在创建基于语料库的 DocumentTermMatrix 时遇到问题。问题是当我基于 UTF-8 语料库创建 TermDocumentMatrix 时,一些单词会变成 unicode 符号。

回报:

如果我手动检查语料库,那么我会看到正确的输出。

回报:

有谁知道我怎样才能获得具有正确条款的 TermDocumentMatrix?或者有没有办法将这些 un​​icode 符号再次转换为“可读”输出?

注意: print(Terms(tdm)) 不包含来自 print(corpus[[1]]) 的单词

0 投票
2 回答
6428 浏览

r - R DocumentTermMatrix 控制列表不起作用,默默地忽略未知参数

我有两个以下 DTM-s:

当我实现这个时,我看到两个相等的 DTM-s,如果我打开dtmImproved,会有带有 3 个符号的单词。为什么minWordLength参数不起作用?谢谢!

0 投票
1 回答
1395 浏览

c - strptime() 的问题

我正在使用该函数strptime()从字符串转到struct tm. 但是,当我检查字段时,有一些没有填写。所以我检查了手册页,但似乎我在做正确的事情,所以现在我不知道出了什么问题。

示例输入字符串:

strptime 函数:

据我了解, %a 代表星期几, %d 代表月份中的某天, %b 代表月份, %Y 代表年份, %T 代表 HH:MM:SS 和 % Z 代表格林威治标准时间。

的输出tm struct

产生输出的代码:

任何朝着正确方向的推动都会非常有帮助。谢谢!