问题标签 [tm]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 您如何在 R 的 tm 包中静默保存检查对象?
当我将 inspect() 对象保存在 R 的 tm 包中时,它会打印到屏幕上。它确实将我想要的数据保存在 data.frame 中,但是我有数千个文档要分析,并且打印到屏幕上占用了我的内存。
我已经尝试了所有我能想到的技巧。capture.output() 改变对象(不是想要的效果),sink() 也是如此。dev.off() 不起作用。invisible() 什么都不做。suppressWarnings()、suppressMessages() 和 try() 不出所料地什么都不做。检查命令中没有静默或静默选项。
我能得到的最接近的是
值得注意的是,它没有给出相同的data.frame,但如果我需要沿着这条路线走,很容易。任何其他(不那么老套)的建议都会有所帮助。谢谢。
Windows 7 64 位 R-3.0.1 tm 软件包是最新版本 (0.5-9.1)。
r - 使用 tm 包计算相似度矩阵
我需要创建一个相似度矩阵,下面的代码就是我目前所拥有的。但是,结果不是我需要的。该代码返回一个有 16 行的矩阵,它是文档术语矩阵中的 8 个唯一术语与工作标题中的 2 个唯一术语的乘积。
我需要的是一个只有 4 行(每个标题一个)的矩阵,每一行表示 workTitle 中每个单词与标题中每个术语之间的编辑距离之和。
这是上面代码的输出:
r - R tm stemCompletion 生成 NA 值
当我尝试将 stemCompletion 应用于语料库时,此函数会生成 NA 值..
这是我的代码:
(其中一个结果是:[[2584]] 分区计划)
下一步是填充语料库,因此:
但结果是这样的
[[2584]] 北美工厂
下一步应该是创建一个包含事务的关联矩阵,然后是先验规则,但如果我继续尝试获取规则,inspect(rules) 函数会给我这个错误:
有什么问题?我想NA值不能正确生成关联矩阵,然后是好的规则..这是问题吗?如果是这样,我该如何解决?
这是问题的摘要:
r - 带有 tm 的文本挖掘大型数据框挂起。
我正在使用 R 包 tm 运行一些文本挖掘分析。当我将数据加载到语料库并尝试运行时
这些查询似乎都挂在我身上,并且需要很长时间才能完成。我得到了 500k 行搜索查询之间的东西。我怎样才能最好地在这个大数据集上运行 tm 包命令,而不会占用我的内存和挂在我身上的机器。
仅供参考 - 我的机器上有超过 8GB 的内存。
r - 是否可以为 RTextTools 包提供自定义停用词列表?
使用 tm 包,我可以这样做:
mystopwords
作为我要删除的其他停用词的向量。
但是我找不到使用 RTextTools 包的等效方法。例如:
是否有可能做到这一点?我真的很喜欢这个RTextTools
界面,很遗憾不得不回到tm
.
r - Twitter Mining using R (twitteR + tm): error using tolower conversion
我在处理使用 twitteR 包的 CRAN 版本提取的 twitter 数据时遇到了一些问题。特别是 tm 包的转换率较低。
我正在关注这个例子
这就是我目前正在做的事情:
其他转换完成得很好(如果 tolower 没有运行)。然而,较低的转换返回:
我怀疑这可能是由其中一条推文中的某些字符引起的,但我该如何追查问题?
编辑:确实,某些字符似乎会导致这种情况,例如:
这里的“\ud83d\ude1c”部分会导致错误。关于如何从推文中自动删除这些短语(这个是: http: //www.charbase.com/1f61c-unicode-face-with-stuck-out-tongue-and-winking-eye )的任何想法?
r - 在 R 中处理大型文本文件
我有一个包含 600 万条消息的 6GB 数据集,我想处理这些消息 - 我的目标是为我的数据集创建一个文档术语矩阵,但我需要进行一些预处理(去除 HTML 标记、词干提取、停用词删除、等)首先。
以下是我目前尝试做这一切的方式:
ls 在每一行:
的每一行sampletrainDT
是一条消息,主列是Body
。其他包含元数据,如 docid 等。
当我只使用数据的一个子集(10%)时,它运行得非常快(10 分钟),但如果我使用完整的数据集,它甚至不会完成,因为我在这条线上用完了 RAM sampletrainDT[, Body := gsub("<(.|\n)*?>", " ", Body)] # remove HTML tags
。在两行之间运行 gc() 似乎并没有改善这种情况。
我花了几天时间在谷歌上搜索一个解决方案,但我还没有找到一个好的解决方案,所以我很想听听其他在这方面有很多经验的人的意见。以下是我正在考虑的一些选项:
- ff 或 bigmemory - 难以使用且不适合文本
- 数据库
- 一次读取块,处理并附加到文件(更适合 Python?)
- 来自 tm 库的 PCorpus
- Map-reduce - 在本地完成,但希望以内存友好的方式
- R只是不是这个工具吗?
我想让它在单台机器(16 GB 笔记本电脑)上运行,而不是在 EC2 上使用大型机器。如果处理得当,6GB 的数据似乎并非不可逾越!
r - 针对特定的感兴趣词绘制高度相关的词
我正在尝试绘制一个单词的最高相关性。例如,我想绘制单词“鲸鱼”的前十个相关性。有人可以帮助我执行类似的命令吗?如果有帮助,我已经安装了 RGraphViz。
r - 在 R 中查找 ngram 并在整个语料库中比较 ngram
我开始使用 R 中的 tm 包,所以请多多包涵,并为文字的大墙道歉。我创建了一个相当大的社会主义/共产主义宣传语料库,并想提取新创造的政治术语(多个词,例如“斗争-批评-改造运动”)。
这是一个两步的问题,一个是关于我目前的代码,一个是关于我应该如何继续。
第 1 步:为此,我想首先识别一些常见的 ngram。但我很早就被卡住了。这是我一直在做的事情:
我加载到 R 中的语料库可以很好地与我扔给它的大多数功能一起使用。从我的语料库创建 TDM、查找常用词、关联、创建词云等,我没有遇到任何问题。但是,当我尝试使用tm FAQ中概述的方法来识别 ngram 时,我显然在 tdm-constructor 上犯了一些错误:
我收到此错误消息:
有任何想法吗?“a”不是正确的类/对象吗?我很困惑。我认为这里有一个根本性的错误,但我没有看到它。:(
第 2 步:然后,当我将语料库与其他语料库进行比较时,我想识别出显着过多的 ngram。例如,我可以将我的语料库与大型标准英语语料库进行比较。或者我创建可以相互比较的子集(例如苏联与中国共产党的术语)。你有什么建议我应该如何去做吗?我应该研究的任何脚本/功能?只是一些想法或指示会很棒。
谢谢你的耐心!
text-mining - 潜在狄利克雷分配 (LDA) 的文档数量
感谢您花时间看这个问题。我最近从网上抓取了一些文本,并将输出保存为一个大约 300 页的 .txt 文件。我正在尝试实施 LDA 来构建主题,并且熟悉这样做的技术方面。
但是,我的问题是 LDA 使用一个文件还是多个文件是否重要(即,如果我正在检查 200 封电子邮件,我是否需要标记、删除停用词和标点符号,并阻止大文件,然后将每封电子邮件保存为在实现 LDA 之前单独的 .txt 文件,或者我可以在一个文件中完成所有操作吗?
我现在面临的问题是,如果我要将所有内容分解为单独的 .txt 文件,文档的预处理将需要很长时间。有什么建议么?非常感谢。