问题标签 [tm]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
29562 浏览

r - 使用 tm() 从 R 中的语料库中删除非英文文本

我在 R 中使用tm()andwordcloud()进行一些基本的数据挖掘,但我遇到了困难,因为我的数据集中有非英文字符(即使我试图根据背景变量过滤掉其他语言。

假设我的 TXT 文件中的某些行(在 TextWrangler 中保存为 UTF-8)如下所示:

然后我将我的 txt 文件读入 R:

这会产生警告消息:

但由于这是一个警告,而不是错误,我继续向前推进。

这会产生错误:

我愿意寻找在 TextWrangler 或 R 中过滤掉非英文字符的方法;什么是最方便的。谢谢你的帮助!

0 投票
1 回答
5919 浏览

r - 在 R 中阅读 Outlook 邮件

我尝试了一些方法来通过 R(BSON) 中的 MongoDb 读取 Outlook 邮件,但没有成功,因为 PST 的 BSON 在 R 中不可读(#I used readBin()) 然后我尝试直接通过tm.plugin在 R 中读取它.mail但收到错误:-

这个库只是tm 的插件,或者我们可以在 R 中从 PST 中读出邮件吗?他们有什么方法可以在 R 中读出邮件吗?请尽快帮助我。谢谢。

0 投票
8 回答
15384 浏览

r - tm_map 在 Mac 上的 R 3.0.1 中有 parallel::mclapply 错误

我在平台上使用 R 3.0.1:x86_64-apple-darwin10.8.0(64 位)

我正在尝试使用 tm 库中的 tm_map 。但是当我执行这段代码时

我收到此错误:

有谁知道这个的解决方案?

0 投票
2 回答
1404 浏览

regex - 如何在 TermDocumentMatrix 中使用正则表达式进行文本挖掘?

我知道我可以使用 tm 包使用 Dictionary 函数来计算语料库中特定单词的出现次数:

我想知道是否有一种工具可以向 Dictionary 提供正则表达式而不是固定单词?

有时词干可能不是我想要的(例如,我可能想找出拼写错误),所以我想做类似的事情:

从而继续使用 tm 包的功能?

0 投票
0 回答
137 浏览

r - 对 DocumentTermMatrix 中的术语进行分组

我有一个 csv 文件(包含“idNo”和“skillsList”)。我想将所有“idNo”聚集在“skillsList”下

我将我的csv文件加载到R中,然后准备了一个“文档术语矩阵”我所有的“idNo”都是文档,所有的“skillsList”都是术语。正确获得了矩阵,但我不知道如何将“idNo”与“skillsList”分组。

0 投票
6 回答
37465 浏览

r - 在 R tm 中添加自定义停用词

我有一个使用tm包的 R 语料库。我正在应用该removeWords功能来删除停用词

有没有办法将我自己的自定义停用词添加到此列表中?

0 投票
2 回答
520 浏览

r - tm 的函数反复使 R 崩溃

我有这行我想执行:

doc.corpus 的长度为 191,000,dictionary_english 为 48

我在一个 3/4 大小的语料库上运行同一行,并且在几分钟内顺利运行(可能甚至不到 5 分钟)。

现在该功能使我的 MacBook Pro 崩溃。我运行了两次,两次都不得不在计算一个多小时后强制退出 R&RStudio。

有什么方法可以优化我的通话吗?

0 投票
0 回答
671 浏览

r - “进程已分叉......”在 R 中使用 tm 包时出错

我安装了tm packageinR来做一些文本挖掘分析。创建语料库后,我想使用该tm_map()函数,该函数会引发以下错误消息:

有人知道为什么会出现此消息吗?

这是更多用于说明的代码:

我在 OSX 10.7.5 上使用 R 3.0.1 GUI 1.61 Snow Leopard build (6492)


0 投票
1 回答
930 浏览

r - R:通过 ID-tag 查找语料库文档并设置附加标签

想要为语料库中的文档编写标签。标签存储在语料库之外的具有特定唯一文档 ID 的数据框中。

挑战:(1)从数据帧中获取每个 ID,(2)在语料库中找到对应的文档,(3)将数据帧中的标签设置为具有特定 ID 的语料库文档。

感谢您的任何帮助 (;

0 投票
7 回答
20267 浏览

r - R将语料库分成句子

  1. 我有许多 PDF 文档,我已将它们读入带有 library 的语料库tm。如何将语料库分解成句子?

  2. 可以readLines通过sentSplit从包qdap[*] 读取文件来完成。该功能需要一个数据框。它还需要放弃语料库并单独读取所有文件。

  3. 如何将函数sentSplit{ qdap} 传递给语料库tm?或者,还有更好的方法?。

注意:sentDetect library 中有一个函数openNLP,现在是Maxent_Sent_Token_Annotator- 同样的问题适用:如何将其与语料库 [tm] 结合使用?