问题标签 [weka]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - weka可视化选项卡中的jitter是什么意思
在weka我加载了一个 arff 文件。我可以使用可视化选项卡查看属性之间的关系。
但是我无法理解抖动滑块的含义。它的目的是什么?
machine-learning - 关于使用机器学习工具 Weka 的问题
我正在使用 Weka 的资源管理器功能进行分类。
所以我有我的 .arff 文件,具有 NUMERIC 值的 2 个特征,我的类是二进制 0 或 1(例如 {0,1})。
样本:
我加载这个 .arff 文件,使用 10 倍交叉验证(无测试文件),然后选择 NaiveBayes,然后我对数据进行分类,它给了我:5 个错误标记,100 个正确标记。到现在为止还挺好。
现在,我显着更改了我的 .arff 文件(为我的特征属性提供完全随机的值)。重复上述操作,我在分类时得到完全相同的统计数据。
我尝试对我的 .arff 文件进行更多更改,使用不同的分类算法。尽管如此,无论我给我的 .arff 文件赋予什么值,完全相同的统计数据(在相同的算法中)。
我在这里做错了吗?
filter - WEKA 的重采样过滤器 - 如何解释结果
我目前正在努力解决机器学习问题,而我必须处理大量不平衡的数据集。也就是说,有六个类('1','2'...'6')。不幸的是,例如“1”类有 150 个示例/实例,“2”类有 90 个实例,“3”类只有 20 个。所有其他类都不能“训练”,因为这些类没有可用的实例。
到目前为止,我发现 WEKA(我正在使用的机器学习工具包)提供了这种有监督的“重采样”过滤器。当我使用 'noReplacement'=false 和 'bialToUniformClass'=1.0 应用此过滤器时,这会产生一个数据集,其中实例的数量很好并且几乎相等(对于类 '1'..'3' 和其他留空)。
我现在的问题是:WEKA 和这个过滤器如何为不同的类生成“新”/附加实例。
非常感谢您提前提供任何提示或建议。
干杯朱利安
java - 如何使用 java 编程删除微阵列数据中的冗余元组?
在用于 MICROARRAY DATA 的数据挖掘软件 WEKA 中,如何从现有数据集中删除冗余元组?删除冗余的代码应该在 JAVA 中。
即,数据集包含诸如
这里的元组 1,4,5 是多余的。
代码应返回以下 REDUNDANCY REMOVED 数据集...
normalization - Weka 规范化列
我有一个包含 14 个数字列的 ARFF 文件。我想分别对每一列执行标准化,即将每一列的值修改为(actual_value - min(this_column)) / (max(this_column) - min(this_column)
)。因此,列中的所有值都将在范围内[0, 1]
。一列的最小值和最大值可能与另一列的不同。
如何使用 Weka 过滤器做到这一点?
谢谢
machine-learning - WEKA 教程/新手示例
在此答案的后续行动中,我想问你们是否知道任何好的(更重要的是易于理解)教程和/或使用Weka 工具包进行数据挖掘的示例。
自从我第一次听说数据挖掘和它可以做的事情以来,我就对它非常感兴趣,我也有一些我想用我的数据做的实验,我已经买了四个书籍,我发现以下两本特别有趣:
数据挖掘 http://ecx.images-amazon.com/images/I/61DhYb1Z6QL._BO2,204,203,200_PIsitb-sticker-arrow-click,TopRight,35,-76_AA240_SH20_OU01_.jpg
最后一个是由 Weka 的同一作者编写的,包含很多示例,但我仍然觉得很难理解逻辑,特别是数学。我的数学技能目前很粗糙,我计划今年去大学,希望我能学习并能够更好地理解所涉及的数学,但在那之前我想在数据挖掘方面获得一些实践。
是否有任何包含示例数据的分步教程,我可以阅读以帮助我开始使用 Weka 工具包?
classification - 选择正确的分类算法。线性还是非线性?
我觉得这个问题有点棘手。也许有人知道回答这个问题的方法。想象一下,你有一个你不知道它是什么的数据集(训练数据)。为了推断分类算法对这些数据进行分类,您会查看训练数据的哪些特征?我们能说一下我们应该使用非线性分类算法还是线性分类算法?
顺便说一句,我正在使用 WEKA 来分析数据。
有什么建议么?谢谢你。
data-mining - 使用 RBFKernel(C 和 gamma)优化 SMO
使用带有支持向量机的 RBF 内核时有两个参数:C 和 γ。事先不知道哪个 C 和 γ 最适合一个问题;因此,必须进行某种模型选择(参数搜索)。目标是识别好的(C;γ),以便分类器可以准确地预测未知数据(即测试数据)。
weka.classifiers.meta.GridSearch
是用于调整一对参数的元分类器。然而,似乎需要很长时间才能完成(当数据集相当大时)。为了缩短完成这项任务所需的时间,您建议做什么?
根据支持向量机的用户指南:
C:软边距常数。较小的 C 值允许忽略靠近边界的点,并增加边距。
γ> 0 是控制高斯宽度的参数
debugging - 如何调试 Weka?
我正在尝试为 Weka 实现一个新的过滤器。我想知道,我应该怎么做才能调试 weka,这样我才能看到我的代码有什么问题,因为当我尝试在 weka 中运行过滤器时,我遇到了异常。目前我正在使用
打印变量的值,尝试找出问题,但是我浪费了很多时间生成 jar 文件,将它们处理到正确的位置,重新启动 weka 等等......等等......
在此先感谢您的帮助。
machine-learning - 为分类问题生成假数据的最佳方法是什么?
我正在做一个项目,我有一个用户击键时间数据的子集。这意味着用户进行了 n 次尝试,我将在各种分类算法中使用这些记录的尝试时间数据,以供未来用户尝试验证登录过程由用户或其他人完成。(简单地说,这是生物识别)
我有 3 次不同的用户登录尝试过程,当然这是无限数据的子集。
到目前为止,这是一个简单的分类问题,我决定使用 WEKA,但据我了解,我必须创建一些假数据来提供分类算法。用户的测量尝试将为 1,假数据将为 0。
我可以使用一些优化算法吗?或者有什么方法可以创建这个假数据来获得最少的误报?
谢谢