问题标签 [tm]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1067 问题

0 投票

2 回答

29562 浏览

r - 使用 tm() 从 R 中的语料库中删除非英文文本

我在 R 中使用tm()andwordcloud()进行一些基本的数据挖掘，但我遇到了困难，因为我的数据集中有非英文字符（即使我试图根据背景变量过滤掉其他语言。

假设我的 TXT 文件中的某些行（在 TextWrangler 中保存为 UTF-8）如下所示：

然后我将我的 txt 文件读入 R：

这会产生警告消息：

但由于这是一个警告，而不是错误，我继续向前推进。

这会产生错误：

我愿意寻找在 TextWrangler 或 R 中过滤掉非英文字符的方法；什么是最方便的。谢谢你的帮助！

r tm

2013-08-09T18:41:38.950

0 投票

1 回答

5919 浏览

r - 在 R 中阅读 Outlook 邮件

我尝试了一些方法来通过 R(BSON) 中的 MongoDb 读取 Outlook 邮件，但没有成功，因为 PST 的 BSON 在 R 中不可读(#I used readBin()) 然后我尝试直接通过tm.plugin在 R 中读取它.mail但收到错误：-

这个库只是tm 的插件，或者我们可以在 R 中从 PST 中读出邮件吗？他们有什么方法可以在 R 中读出邮件吗？请尽快帮助我。谢谢。

r tm

2013-08-16T06:52:44.933

0 投票

8 回答

15384 浏览

r - tm_map 在 Mac 上的 R 3.0.1 中有 parallel::mclapply 错误

我在平台上使用 R 3.0.1：x86_64-apple-darwin10.8.0（64 位）

我正在尝试使用 tm 库中的 tm_map 。但是当我执行这段代码时

我收到此错误：

有谁知道这个的解决方案？

r parallel-processing tm mclapply

2013-08-17T10:55:25.053

0 投票

2 回答

1404 浏览

regex - 如何在 TermDocumentMatrix 中使用正则表达式进行文本挖掘？

我知道我可以使用 tm 包使用 Dictionary 函数来计算语料库中特定单词的出现次数：

我想知道是否有一种工具可以向 Dictionary 提供正则表达式而不是固定单词？

有时词干可能不是我想要的（例如，我可能想找出拼写错误），所以我想做类似的事情：

从而继续使用 tm 包的功能？

regex r text-mining tm

2013-08-22T14:18:21.337

0 投票

0 回答

137 浏览

r - 对 DocumentTermMatrix 中的术语进行分组

我有一个 csv 文件（包含“idNo”和“skillsList”）。我想将所有“idNo”聚集在“skillsList”下

我将我的csv文件加载到R中，然后准备了一个“文档术语矩阵”我所有的“idNo”都是文档，所有的“skillsList”都是术语。正确获得了矩阵，但我不知道如何将“idNo”与“skillsList”分组。

r tm

2013-08-23T07:04:58.303

0 投票

6 回答

37465 浏览

r - 在 R tm 中添加自定义停用词

我有一个使用tm包的 R 语料库。我正在应用该removeWords功能来删除停用词

有没有办法将我自己的自定义停用词添加到此列表中？

r text-mining stop-words corpus tm

2013-08-26T14:22:05.393

0 投票

2 回答

520 浏览

r - tm 的函数反复使 R 崩溃

我有这行我想执行：

doc.corpus 的长度为 191,000，dictionary_english 为 48

我在一个 3/4 大小的语料库上运行同一行，并且在几分钟内顺利运行（可能甚至不到 5 分钟）。

现在该功能使我的 MacBook Pro 崩溃。我运行了两次，两次都不得不在计算一个多小时后强制退出 R&RStudio。

有什么方法可以优化我的通话吗？

r tm

2013-08-30T00:49:11.480

0 投票

0 回答

671 浏览

r - “进程已分叉......”在 R 中使用 tm 包时出错

我安装了tm packageinR来做一些文本挖掘分析。创建语料库后，我想使用该tm_map()函数，该函数会引发以下错误消息：

有人知道为什么会出现此消息吗？

这是更多用于说明的代码：

我在 OSX 10.7.5 上使用 R 3.0.1 GUI 1.61 Snow Leopard build (6492)

r tm

2013-09-08T20:59:02.417

0 投票

1 回答

930 浏览

r - R：通过 ID-tag 查找语料库文档并设置附加标签

想要为语料库中的文档编写标签。标签存储在语料库之外的具有特定唯一文档 ID 的数据框中。

挑战：（1）从数据帧中获取每个 ID，（2）在语料库中找到对应的文档，（3）将数据帧中的标签设置为具有特定 ID 的语料库文档。

感谢您的任何帮助（;

r tags corpus tm

2013-09-09T20:44:34.470

0 投票

7 回答

20267 浏览

r - R将语料库分成句子

我有许多 PDF 文档，我已将它们读入带有 library 的语料库tm。如何将语料库分解成句子？
可以readLines通过sentSplit从包qdap[*] 读取文件来完成。该功能需要一个数据框。它还需要放弃语料库并单独读取所有文件。
如何将函数sentSplit{ qdap} 传递给语料库tm？或者，还有更好的方法？。

注意：sentDetect library 中有一个函数openNLP，现在是Maxent_Sent_Token_Annotator- 同样的问题适用：如何将其与语料库 [tm] 结合使用？

r split tm sentence qdap

2013-09-10T07:24:16.030

1 2 3 4 5 6 7 8 9 10

问题标签 [tm]

Reference