问题标签 [rweka]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

101 问题

0 投票

0 回答

418 浏览

r - 多元时间序列的关联规则挖掘

我有一个数据集，其中包含多个随时间变化的变量。我想运行一个关联挖掘算法来挖掘模式同时发生变化的变量。似乎在时间关联挖掘上有一些东西，但在其中找不到任何包。CRAN 任务视图中也没有提到该主题。

r weka rweka

2015-07-05T09:03:09.923

0 投票

2 回答

6021 浏览

r - 通过R中的trigrams生成所有单词unigrams

我正在尝试通过 R 中的 trigrams 生成所有 unigrams 的列表，最终制作一个文档短语矩阵，其中包含所有单个单词、bigrams 和 trigrams 的列。

我希望为此找到一个简单的软件包，但没有成功。我最终确实被指向了 RWeka，下面的代码和输出，但不幸的是，这种方法会丢弃所有 2 或 1 个字符的 unigrams。

这可以修复，还是人们知道另一条路？谢谢！

这是下面的 ngram() 版本，为优化而编辑（我认为）。基本上，当 include.all=TRUE 时，我尝试重用标记字符串以摆脱双循环。

r text-processing tm rweka quanteda

2015-07-08T00:17:24.680

0 投票

3 回答

10447 浏览

r - 无法在 R 上安装 RWeka 包

我尝试了不同的方法在 R 上安装 RWeka 包，但找不到任何成功。

尽管尝试了不同的方法，但我无法安装 RWeka：

1.正常安装

2. 从 URL 安装

3.从本地安装（下载zip文件并放入目录后）

有人可以帮我解决这个问题吗？非常感谢

r installation rweka

2015-07-15T15:52:53.163

0 投票

1 回答

316 浏览

r - RWeka 删除稀疏项

我正在使用 RWeka 创建一个三元组和四元组模型。我注意到一个奇怪的行为对于三元组

当我删除稀疏术语时，它会将上述约 100 万行缩小到 8307

对于四边形删除根本不影响它

删除稀疏项后有 100 万个项目。

这看起来不对。

如果我做错了什么，请告诉我

问候 Ganesh

r tm n-gram rweka

2015-07-19T15:43:15.163

0 投票

1 回答

138 浏览

r - RWeka 问题针织 HTML

当我尝试在 Rstudio 中使用 Knitr 将 Markdown 文件编织到 html 中时，我遇到了以下涉及 RWeka 库的错误。任何提示将非常感谢。

错误：.onLoad failed in loadNamespace() for 'rJava', details:
call: fun(libname, pkgname)
error: JAVA_HOME cannot be determined from the Registry
Quitting from lines 14-20 (Milestone_Report.Rmd)
Error: package or namespace load 'RWeka' 失败
执行停止

r rstudio rweka

2015-07-23T04:49:08.980

0 投票

1 回答

95 浏览

r - NGramTokenizer：切换的术语计数相等

我正在尝试从关于上个月举行的会议的免费评论样本中绘制二元组。我正在使用以下方法（来自Rweka包）：

我的“To-Corpus-format 函数”在哪里modif.corpus.irri.aff()（顺便使用词干文档）。

要显示条形图，代码的结尾是这样的：

这很好用，但我想显示“对出现”而不是“二元出现”，因为我想计算比二元表达更多的想法。

只是一个可以确定的例子：我想将“long meeting_”栏与“meeting_ long”栏合并/连接，因为这是相同的想法：会议太长了。是否有处理这种差异的控制参数NgramTokenizer？或者有什么要补充的？

r text-mining rweka

2015-08-11T17:14:21.590

0 投票

0 回答

630 浏览

java - RWeka 返回 java.lang.NoSuchMethodError：

我正在尝试使用 RWeka 在 R 中运行 Weka AODE 类。以下代码返回错误。

我明白了：

我已经验证 RWeka/java/RWeka.jar 包含 AODE.class 文件。

当试图在cran中运行 RWeka 手册中的朴素贝叶斯示例时，我得到了同样的错误。

任何想法为什么我会收到此错误？

java r weka rweka

2015-10-12T07:09:49.977

0 投票

2 回答

329 浏览

r - 使用 R 提取最频繁 ngram 的高效方法

我正在使用以下 tm+RWeka 代码来提取文本中最常见的 ngram：

它工作正常，但如果数据更大怎么办？有没有更高效的计算方式？此外，如果变量更多（例如 100），我该如何编写DF$sums代码行。肯定有比以下更优雅的东西：

谢谢

编辑：我想知道是否有一种方法可以从tdm TermDocumentMatrix 中提取最常见的 ngram，并在创建具有这些值的数据框之后。我正在做的是创建一个包含所有 ngram 的数据框，然后采用最常见的值，这似乎不是最佳选择。

r performance tm n-gram rweka

2015-11-08T18:18:21.360

0 投票

1 回答

4264 浏览

r - 如何在数据集上使用 RWeka 包？

所以我在网上生成了一个随机数据集，我需要在上面应用 C4.5 算法。
我安装了 RWeka 包及其所有依赖项，但我不知道如何执行它。
有人可以帮我提供教程的链接吗？除了 RWeka 文档之外的任何内容。还是 R 中的示例 C4.5 代码以了解其工作原理？
谢谢

r id3 rweka c4.5

2015-11-12T13:34:51.760

0 投票

1 回答

474 浏览

r - R 和 MovieLense 数据集中的 RWeka J48 分类问题

我想对 Movielense 用户表的人口统计数据进行分类，但 J48 的结果很奇怪，我用 C5.0 对我的数据进行分类，一切都很好但我必须研究这个算法（j48）

我的数据结构如下

数据负责人是

user_id除arenominal type和 should be之外的所有列factor in R

分类代码：

汇总结果的错误表是

当我用 C5.0 拟合我的模型时，结果如下所示，除了两种算法

更多尝试

我更改了数据的结构并将因子列转换为单独的列，但没有任何变化
我改变C controller value了结果会好一点，C=0.75但这是完全错误的

规范化和更改数据后的事件没有发生

r weka j48 rweka

2016-02-07T06:42:01.010

1 2 3 4 5 6 7 8 9 10

问题标签 [rweka]

Reference