问题标签 [rweka]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 多元时间序列的关联规则挖掘
我有一个数据集,其中包含多个随时间变化的变量。我想运行一个关联挖掘算法来挖掘模式同时发生变化的变量。似乎在时间关联挖掘上有一些东西,但在其中找不到任何包。CRAN 任务视图中也没有提到该主题。
r - 通过R中的trigrams生成所有单词unigrams
我正在尝试通过 R 中的 trigrams 生成所有 unigrams 的列表,最终制作一个文档短语矩阵,其中包含所有单个单词、bigrams 和 trigrams 的列。
我希望为此找到一个简单的软件包,但没有成功。我最终确实被指向了 RWeka,下面的代码和输出,但不幸的是,这种方法会丢弃所有 2 或 1 个字符的 unigrams。
这可以修复,还是人们知道另一条路?谢谢!
这是下面的 ngram() 版本,为优化而编辑(我认为)。基本上,当 include.all=TRUE 时,我尝试重用标记字符串以摆脱双循环。
r - 无法在 R 上安装 RWeka 包
我尝试了不同的方法在 R 上安装 RWeka 包,但找不到任何成功。
尽管尝试了不同的方法,但我无法安装 RWeka:
1.正常安装
2. 从 URL 安装
3.从本地安装(下载zip文件并放入目录后)
有人可以帮我解决这个问题吗?非常感谢
r - RWeka 删除稀疏项
我正在使用 RWeka 创建一个三元组和四元组模型。我注意到一个奇怪的行为对于三元组
当我删除稀疏术语时,它会将上述约 100 万行缩小到 8307
对于四边形删除根本不影响它
删除稀疏项后有 100 万个项目。
这看起来不对。
如果我做错了什么,请告诉我
问候 Ganesh
r - RWeka 问题针织 HTML
当我尝试在 Rstudio 中使用 Knitr 将 Markdown 文件编织到 html 中时,我遇到了以下涉及 RWeka 库的错误。任何提示将非常感谢。
错误:.onLoad failed in loadNamespace() for 'rJava', details:
call: fun(libname, pkgname)
error: JAVA_HOME cannot be determined from the Registry
Quitting from lines 14-20 (Milestone_Report.Rmd)
Error: package or namespace load 'RWeka' 失败
执行停止
r - NGramTokenizer:切换的术语计数相等
我正在尝试从关于上个月举行的会议的免费评论样本中绘制二元组。我正在使用以下方法(来自Rweka
包):
我的“To-Corpus-format 函数”在哪里modif.corpus.irri.aff()
(顺便使用词干文档)。
要显示条形图,代码的结尾是这样的:
这很好用,但我想显示“对出现”而不是“二元出现”,因为我想计算比二元表达更多的想法。
只是一个可以确定的例子:我想将“long meeting_”栏与“meeting_ long”栏合并/连接,因为这是相同的想法:会议太长了。是否有处理这种差异的控制参数NgramTokenizer
?或者有什么要补充的?
java - RWeka 返回 java.lang.NoSuchMethodError:
我正在尝试使用 RWeka 在 R 中运行 Weka AODE 类。以下代码返回错误。
我明白了:
我已经验证 RWeka/java/RWeka.jar 包含 AODE.class 文件。
当试图在cran中运行 RWeka 手册中的朴素贝叶斯示例时,我得到了同样的错误。
任何想法为什么我会收到此错误?
r - 使用 R 提取最频繁 ngram 的高效方法
我正在使用以下 tm+RWeka 代码来提取文本中最常见的 ngram:
它工作正常,但如果数据更大怎么办?有没有更高效的计算方式?此外,如果变量更多(例如 100),我该如何编写DF$sums
代码行。肯定有比以下更优雅的东西:
谢谢
编辑:我想知道是否有一种方法可以从tdm
TermDocumentMatrix 中提取最常见的 ngram,并在创建具有这些值的数据框之后。我正在做的是创建一个包含所有 ngram 的数据框,然后采用最常见的值,这似乎不是最佳选择。
r - 如何在数据集上使用 RWeka 包?
所以我在网上生成了一个随机数据集,我需要在上面应用 C4.5 算法。
我安装了 RWeka 包及其所有依赖项,但我不知道如何执行它。
有人可以帮我提供教程的链接吗?除了 RWeka 文档之外的任何内容。还是 R 中的示例 C4.5 代码以了解其工作原理?
谢谢
r - R 和 MovieLense 数据集中的 RWeka J48 分类问题
我想对 Movielense 用户表的人口统计数据进行分类,但 J48 的结果很奇怪,我用 C5.0 对我的数据进行分类,一切都很好但我必须研究这个算法(j48)
我的数据结构如下
数据负责人是
user_id
除arenominal type
和 should be之外的所有列factor in R
分类代码:
汇总结果的错误表是
当我用 C5.0 拟合我的模型时,结果如下所示,除了两种算法
更多尝试
- 我更改了数据的结构并将因子列转换为单独的列,但没有任何变化
- 我改变
C controller value
了结果会好一点,C=0.75
但这是完全错误的
规范化和更改数据后的事件没有发生