问题标签 [rweka]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
418 浏览

r - 多元时间序列的关联规则挖掘

我有一个数据集,其中包含多个随时间变化的变量。我想运行一个关联挖掘算法来挖掘模式同时发生变化的变量。似乎在时间关联挖掘上有一些东西,但在其中找不到任何包。CRAN 任务视图中也没有提到该主题。

0 投票
2 回答
6021 浏览

r - 通过R中的trigrams生成所有单词unigrams

我正在尝试通过 R 中的 trigrams 生成所有 unigrams 的列表,最终制作一个文档短语矩阵,其中包含所有单个单词、bigrams 和 trigrams 的列。

我希望为此找到一个简单的软件包,但没有成功。我最终确实被指向了 RWeka,下面的代码和输出,但不幸的是,这种方法会丢弃所有 2 或 1 个字符的 unigrams。

这可以修复,还是人们知道另一条路?谢谢!

这是下面的 ngram() 版本,为优化而编辑(我认为)。基本上,当 include.all=TRUE 时,我尝试重用标记字符串以摆脱双循环。

0 投票
3 回答
10447 浏览

r - 无法在 R 上安装 RWeka 包

我尝试了不同的方法在 R 上安装 RWeka 包,但找不到任何成功。

尽管尝试了不同的方法,但我无法安装 RWeka:

1.正常安装

2. 从 URL 安装

3.从本地安装(下载zip文件并放入目录后)

有人可以帮我解决这个问题吗?非常感谢

0 投票
1 回答
316 浏览

r - RWeka 删除稀疏项

我正在使用 RWeka 创建一个三元组和四元组模型。我注意到一个奇怪的行为对于三元组

当我删除稀疏术语时,它会将上述约 100 万行缩小到 8307

对于四边形删除根本不影响它

删除稀疏项后有 100 万个项目。

这看起来不对。

如果我做错了什么,请告诉我

问候 Ganesh

0 投票
1 回答
138 浏览

r - RWeka 问题针织 HTML

当我尝试在 Rstudio 中使用 Knitr 将 Markdown 文件编织到 html 中时,我遇到了以下涉及 RWeka 库的错误。任何提示将非常感谢。

错误:.onLoad failed in loadNamespace() for 'rJava', details:
call: fun(libname, pkgname)
error: JAVA_HOME cannot be determined from the Registry
Quitting from lines 14-20 (Milestone_Report.Rmd)
Error: package or namespace load 'RWeka' 失败
执行停止

0 投票
1 回答
95 浏览

r - NGramTokenizer:切换的术语计数相等

我正在尝试从关于上个月举行的会议的免费评论样本中绘制二元组。我正在使用以下方法(来自Rweka包):

我的“To-Corpus-format 函数”在哪里modif.corpus.irri.aff()(顺便使用词干文档)。

要显示条形图,代码的结尾是这样的:

这很好用,但我想显示“对出现”而不是“二元出现”,因为我想计算比二元表达更多的想法。

只是一个可以确定的例子:我想将“long meeting_”栏与“meeting_ long”栏合并/连接,因为这是相同的想法:会议太长了。是否有处理这种差异的控制参数NgramTokenizer?或者有什么要补充的?

0 投票
0 回答
630 浏览

java - RWeka 返回 java.lang.NoSuchMethodError:

我正在尝试使用 RWeka 在 R 中运行 Weka AODE 类。以下代码返回错误。

我明白了:

我已经验证 RWeka/java/RWeka.jar 包含 AODE.class 文件。

当试图在cran中运行 RWeka 手册中的朴素贝叶斯示例时,我得到了同样的错误。

任何想法为什么我会收到此错误?

0 投票
2 回答
329 浏览

r - 使用 R 提取最频繁 ngram 的高效方法

我正在使用以下 tm+RWeka 代码来提取文本中最常见的 ngram:

它工作正常,但如果数据更大怎么办?有没有更高效的计算方式?此外,如果变量更多(例如 100),我该如何编写DF$sums代码行。肯定有比以下更优雅的东西:

谢谢

编辑:我想知道是否有一种方法可以从tdm TermDocumentMatrix 中提取最常见的 ngram,并在创建具有这些值的数据框之后。我正在做的是创建一个包含所有 ngram 的数据框,然后采用最常见的值,这似乎不是最佳选择。

0 投票
1 回答
4264 浏览

r - 如何在数据集上使用 RWeka 包?

所以我在网上生成了一个随机数据集,我需要在上面应用 C4.5 算法。
我安装了 RWeka 包及其所有依赖项,但我不知道如何执行它。
有人可以帮我提供教程的链接吗?除了 RWeka 文档之外的任何内容。还是 R 中的示例 C4.5 代码以了解其工作原理?
谢谢

0 投票
1 回答
474 浏览

r - R 和 MovieLense 数据集中的 RWeka J48 分类问题

我想对 Movielense 用户表的人口统计数据进行分类,但 J48 的结果很奇怪,我用 C5.0 对我的数据进行分类,一切都很好但我必须研究这个算法(j48)

我的数据结构如下

数据负责人是

user_id除arenominal type和 should be之外的所有列factor in R

分类代码:

汇总结果的错误表是

当我用 C5.0 拟合我的模型时,结果如下所示,除了两种算法

更多尝试

  1. 我更改了数据的结构并将因子列转换为单独的列,但没有任何变化
  2. 我改变C controller value了结果会好一点,C=0.75但这是完全错误的

规范化和更改数据后的事件没有发生