问题标签 [quanteda]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何为 R 目录中的文本文件创建 wordcloud
我正在尝试为目录中的每个文本文件创建一个 wordcloud。它们是四次总统宣布演讲。我不断收到以下消息:
最初我能够绘制 Berniedoc,但丢失了图形,但现在无法绘制。
你能告诉我我做错了什么吗?会不会是缩放?或者我应该把“伯尼多克”换成别的东西吗?
r - 使用 quanteda 进行 R 文本挖掘
我有一个数据集(Facebook 帖子)(通过 netvizz),我使用 R 中的 quanteda 包。这是我的 R 代码。
一切正常,直到:
你会如何解释错误信息?有解决问题的建议吗?
r - R:带有 ngram 标记器和字典的 dtm 在 Ubuntu 中损坏?
我正在创建一个带有字典和 ngram 标记化的文档术语矩阵。它适用于我的 Windows 7 笔记本电脑,但不适用于类似配置的 Ubuntu 14.04.2 服务器。 更新:它也适用于 Centos 服务器。
来自 Ubuntu 服务器的错误(在源示例的最后一行):
我已经尝试了Twitter 数据分析中的一些建议 - 术语文档矩阵中的 错误和 simple_triplet_matrix 中的错误 - 无法使用 RWeka 来计算短语
我原以为我的问题可能归因于其中之一,但现在脚本运行在与有问题的 Ubuntu 服务器具有相同语言环境和 JVM 的 Centos 服务器上。
- 语言环境
- JVM 的细微差别
- 并行库?错误消息中提到了 mclapply,会话信息中列出了并行(尽管适用于所有系统。)
以下是两种环境:
R 版本 3.1.2 (2014-10-31) 平台:x86_64-w64-mingw32/x64(64 位)
R 版本 3.1.2 (2014-10-31) 平台:x86_64-pc-linux-gnu (64-bit)
R 版本 3.2.0 (2015-04-16) 平台:x86_64-redhat-linux-gnu (64-bit) 运行于:CentOS Linux 7 (Core)
r - 通过R中的trigrams生成所有单词unigrams
我正在尝试通过 R 中的 trigrams 生成所有 unigrams 的列表,最终制作一个文档短语矩阵,其中包含所有单个单词、bigrams 和 trigrams 的列。
我希望为此找到一个简单的软件包,但没有成功。我最终确实被指向了 RWeka,下面的代码和输出,但不幸的是,这种方法会丢弃所有 2 或 1 个字符的 unigrams。
这可以修复,还是人们知道另一条路?谢谢!
这是下面的 ngram() 版本,为优化而编辑(我认为)。基本上,当 include.all=TRUE 时,我尝试重用标记字符串以摆脱双循环。
r - R tm 包:如何将文本与正参考单词列表进行比较并返回正单词出现的计数
使用 tm 库将文本与正面参考单词列表进行比较并返回正面单词出现次数的最佳方法是什么我希望能够返回参考文本中正面单词的总和。
问题:最好的方法是什么?
例如:
参考文字:
这里有一些背景:
我要做的是计算积极作品的数量并将计数作为新列存储在数据框中。
因此:
其中 text 是 dataFrameIn 中的一列(即 dataFrameIn$text)
r - 你如何在 R 包 Quanteda 中使用 LIWC 格式的字典?
由于 LIWC 软件和字典是专有的,我很高兴看到它们似乎与仍在开发中但出色的 R 包 Quanteda 配合得很好。
R 包 Quanteda 的文档演示了它与 LIWC 格式字典的使用,就像这个SO post一样。
我购买了 LIWC 2015,但不知道如何将字典导出到应用程序之外,而不是导出为 PDF。
r - 将 lexisnexis 输出导入 R quanteda
我会使用 Benoit 的 R-package quanteda 来分析从 lexisnexis 导出的文章。导出为标准 html 格式。我使用 tm 包 + 插件来读取 lexisnexis 输出。不幸的是,将 tm-corpus 转换为 quanteda-corpus 时出现错误。该功能是否损坏,或者我之前有什么问题?
r - 在 R 中形成没有停用词的二元组
我最近在使用 R 进行文本挖掘时遇到了一些问题。目的是在新闻中找到有意义的关键词,例如“智能汽车”和“数据挖掘”。
假设我有一个字符串如下:
删除停用词("have","a","in","the","for") 后,
结果,就会出现像“成功计算机”或“行业过去”这样的二元组。
但我真正需要的是两个词之间不存在停用词,比如“计算机行业”是我想要的二元组的一个明显例子。
我的代码部分如下:
TF计数时有什么方法可以避免出现“成功计算机”之类的结果吗?
r - 使用 quanteda 在 R 中的大型语料库上计算余弦相似度
我正在尝试使用包含大约 85,000 条推文的非常大的语料库,我试图将其与电视广告中的对话进行比较。但是,由于我的语料库的大小,如果没有收到“错误:无法分配大小为 n 的向量”消息(在我的情况下为 26 GB),我将无法处理余弦相似度度量。
我已经在具有大量内存的服务器上运行 R 64 位。我还尝试在内存最多的服务器上使用 AWS(244 GB),但无济于事(同样的错误)。
有没有办法使用像 fread 这样的包来解决这个内存限制,或者我只需要发明一种方法来分解我的数据?非常感谢您的帮助,我已附加以下代码:
r - 在 Quanteda 中使用字典创建 Bigram
我正在尝试从我的数据文本分析中删除拼写错误。所以我正在使用 quanteda 包的字典功能。它适用于 Unigram。但它为 Bigrams 提供了意想不到的输出。不知道如何处理拼写错误,以免它们潜入我的 Bigrams 和 Trigrams。
电流输出
不使用字典,输出如下:
预期的 Bigram
ps 我假设在字典匹配后完成标记化。但根据我看到的结果,情况似乎并非如此。
另一方面,我尝试将我的字典对象创建为
但它没有用。所以我不得不使用我认为效率不高的方法。
更新 根据 Ken 的解决方案添加了输出: