“tm”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

4926 浏览

r - 在语料库的每个文档中查找最频繁的术语

我一直在使用 R 的tm包在分类问题上取得了很大的成功。我知道如何在整个语料库中找到最常用的术语（使用findFreqTerms()），但在文档中看不到任何可以找到最常用术语的内容（在我删除并删除停用词之后，但在我删除稀疏术语之前）在语料库中的每个单独文档中。我试过使用apply()andmax命令，但这给了我每个文档中术语出现的最大次数，而不是术语本身的名称。

想法？

2013-11-04T02:25:26.740

0 投票

1 回答

323 浏览

r - 如何在没有内存错误的情况下在大型语料库上使用 tm_map？

我正在尝试使用tm包进行一些文本挖掘。corpus所以我从一个字符串向量创建一个。然后我使用tolower, 删除所有大写字母，这会导致错误。

我用来创建语料库的字符串向量有 5621 行，最长的字符串有 4590 个字符。
我已经使用rm(list=ls()). 但这没有什么区别。

我在具有 32GB RAM 的服务器上运行它：

我该如何解决这个问题，或者我的服务器不够强大？

r memory-management tm

2013-11-04T17:30:54.633

0 投票

5 回答

12722 浏览

r - tm：读入数据框，保留文本ID，构建DTM并加入其他数据集

我正在使用包 tm。

假设我有一个 2 列、500 行的数据框。第一列是随机生成的 ID，其中包含字符和数字：“txF87uyK” 第二列是实际文本：“今天天气很好。约翰去慢跑了。等等，等等……”

现在我想从这个数据框创建一个文档术语矩阵。

我的问题是我想保留 ID 信息，以便在获得文档术语矩阵后，我可以将该矩阵与另一个矩阵连接起来，该矩阵的每一行是每个文档的其他信息（日期、主题、情绪），每一行是由文档 ID 标识。

我怎样才能做到这一点？

问题一：如何将这个数据框转换成语料库并保存ID信息？

问题2：得到一个dtm后，如何通过ID加入另一个数据集？

r text-mining tm

2013-11-08T02:38:48.667

0 投票

2 回答

3069 浏览

r - 如何抓取网页内容然后计算 R 中单词的频率？

这是我的代码：

这是伪代码：

取一个xml文档：http://www.jamesaltucher.com/sitemap.xml
转到每个链接
解析每个链接的html内容
提取里面的文字div id="mainContent"
计算所有文章中每个单词出现的频率，不区分大小写。

我已成功完成步骤 1-4。我需要一些帮助，没有。5.

基本上如果“the”这个词在第1条出现两次，在第2条出现5次。我想知道“the”在2条中总共出现了7次。

另外，我不知道如何查看我提取到的内容pages。我想学习如何查看内容，这将使我更容易调试。

r web-scraping text-mining tm

2013-11-08T04:33:46.437

0 投票

1 回答

6451 浏览

r - 使用R从excel文件制作术语文档矩阵

对于使用 tm 插件 webmining 进行情感分析，我将创建一个 TermDocumentMatrix，如下面的代码示例所示： http: //www.inside-r.org/packages/cran/tm/docs/tm_tag_score

我有一个 csv 文件，其中包含不同行的文章标题，总共 1 列，没有标题。我的目标是使用 csv 文件中的标题行创建一个术语文档矩阵（或 PlainTextDocument，如果可能的话），但到目前为止我只能创建一个常规矩阵：

我没有在 csv 文件中包含标题。这是我尝试开始情绪分析时的错误消息：

UseMethod（“TermDocumentMatrix”，x）中的错误：没有适用于“TermDocumentMatrix”的方法应用于“c（'matrix'，'character'）”类的对象

有没有办法使用我创建的矩阵创建一个 TermDocumentMatrix？

我也曾尝试创建一个阅读器来提取 csv 文件的内容并将其放入语料库中，但这给了我一个错误：

(elem$content, , mapping[[n]]) 中的错误[.default：维数不正确

当我在此站点上尝试其他建议时（例如，来自 CSV 文件的 R 文本挖掘文档（每个文档一行）），我继续遇到无法对“data.frame”类对象进行情感分析的问题：

hvz <- read.csv("headlinesonly.csv", header=FALSE)

需要(tm)

corp <- 语料库（DataframeSource（hvz））

dtm <- DocumentTermMatrix(corp)

pos <- tm_tag_score(TermDocumentMatrix(hvz, control = list(removePunctuation = TRUE)), tm_get_tags("Positiv"))

UseMethod（“TermDocumentMatrix”，x）中的错误：没有适用于“TermDocumentMatrix”的方法应用于“data.frame”类的对象

需要（“tm.plugin.tags”）

加载所需的包：tm.plugin.tags

sapply(hvz, tm_tag_score, tm_get_tags("Positiv"))

UseMethod（“tm_tag_score”，x）中的错误：没有适用于“tm_tag_score”的方法应用于“因子”类的对象

r csv matrix tm term-document-matrix

2013-11-10T20:15:35.390

0 投票

3 回答

10185 浏览

r - R中的TM包清理文本

我正在尝试使用 R 中的 TM 包清理我的文本语料库，但是我不断收到此错误：

我的数据由从文本文件中读取的聊天日志组成，在 R 中如下所示：

我用：

但我收到此错误：

似乎我不应该将数据框输入到函数中，但我还能怎么做呢？

谢谢

r nlp tm

2013-11-12T00:03:26.153

0 投票

2 回答

2302 浏览

r - tm 包本身是否提供了一种组合文档术语矩阵的内置方法？

tm 包本身是否提供了一种组合文档术语矩阵的内置方法？

我在同一个语料库上生成了 4 个文档术语矩阵，每个矩阵分别为 1、2、3、4 克。它们都非常大：200k*10k，因此将它们转换为数据帧然后对它们进行 cbinding 是不可能的。我知道我可以编写一个程序来记录每个矩阵中的非零元素并构建一个稀疏矩阵，但这很麻烦。tm 包提供此功能似乎很自然。所以如果是这样，我不想重建已经建成的东西。

如果没有，有没有比编写程序记录 dtms 的非零元素的索引然后制作稀疏矩阵更方便的方法来组合 dtms？

r text-mining tm

2013-11-15T04:21:47.503

0 投票

0 回答

1386 浏览

我有一个关于污染物归宿和运输主题的文本文件语料库。我做了术语文档矩阵和术语关联。但是，我想在术语之间找到我们的“趋势关联”。例如，我想知道更多的环境光是否会增加化学物质的水解。我已经在 termdomumentmatrix 中有“光”、“水解”、“增加”和“化学 X”，什么是回答我提出的上述问题的好方法？请注意，我已经在这些术语中完成了 findAssocs，它们在一定程度上正相关（均高于 0.5）。

请指教。谢谢

以下是我使用的粗略 tm 流程，请注意我还有许多其他文档，我只是摘录了一小段文字，例如：

r associations term tm trend

2013-11-17T10:40:15.107

0 投票

1 回答

4569 浏览

r - 使用 R 进行文本挖掘 Reuters-21578

我正在尝试使用众所周知的 Reuters-21578 数据集做一些工作，并且在将 sgm 文件加载到我的语料库时遇到了一些麻烦。

现在我正在使用命令

试图将所有文件包含到我的语料库中，但这给了我以下错误：

知道我哪里可能出错了吗？

r corpus tm reuters

2013-11-25T04:00:55.800

0 投票

2 回答

17903 浏览

r - wordcloud package: get “Error in strwidth(…) : invalid 'cex' value”

I am using the tm and wordcloud packages in R 2.15.1. I am trying to make a word cloud Here is the code:

but getting following error

r tm

2013-12-03T05:58:18.417

问题标签 [tm]

r - 在语料库的每个文档中查找最频繁的术语

r - 如何在没有内存错误的情况下在大型语料库上使用 tm_map？

r - tm：读入数据框，保留文本ID，构建DTM并加入其他数据集

r - 如何抓取网页内容然后计算 R 中单词的频率？

r - 使用R从excel文件制作术语文档矩阵

r - R中的TM包清理文本

r - tm 包本身是否提供了一种组合文档术语矩阵的内置方法？

r - 使用 R tm 查找术语/实体之间的趋势

r - 使用 R 进行文本挖掘 Reuters-21578

r - wordcloud package: get “Error in strwidth(…) : invalid 'cex' value”

问题标签 [tm]

Reference