问题标签 [orange]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
543 浏览

python - 我正在寻找 Orange 中的特定算法

我在课堂上学习数据挖掘,但在使用 Orange 库时遇到了问题。我从 Weka 来到 Orange 并试图找到 J4.8 和 C4.5 算法,但我找不到它们列出。

谷歌搜索将我带到一个页面,该页面说它具有算法(http://docs.orange.biolab.si/widgets/rst/classify/c45.html),但我仍然找不到它们。我正在使用 Python 2.7。它兼容还是我必须写它们?

谢谢

0 投票
1 回答
550 浏览

orange - Orange.Canvas 中缺少大多数可视化工具(2015/06/15 来源)

我的橙色画布安装在 Anaconda python2 环境下的 Mint14 上。“可视化”部分中出现的工具有:属性统计、马赛克显示、筛网图和维恩图。特别是 XY 散点图模块是我需要的。

源码从github获取,按指令编译:

编译源码时多次出现以下错误:

大多数文件安装到:

安装的 Anaconda 软件包:

我是否缺少任何会阻止这些可视化工具包构建的基本要求?

0 投票
1 回答
74 浏览

orange - 具有连续特征的橙色贝叶斯算法

我有一个具有四个连续特征的两类贝叶斯分类问题。我正在尝试部分重现 Orange 用于计算概率的贝叶斯算法算法。但我没有成功获得与 Orange 输出相同的值。

数据集大小:150(class0:88 和 class1:62)

我使用以下算法

其中 L0 和 L1 是可能性

Orange 使用 LOESS 来计算条件概率(我想没有必要重现它)。对于这个数据集,它为 python 对象分类器.conditional_distributions 中给出的两个类输出 49 个点。通过在 Xi 的周围点之间使用线性插值,我可以计算 p(Xi|class0) 和 p(Xi|class1)。

1)任何人都可以评论具有连续特征的橙色贝叶斯算法吗?

2) 或任何技术建议如何设置编译器/IDE,我可以调试 Orange C++ 代码并检查来自 orange/source/orange/bayes.cpp 中的函数的一些中间结果?

0 投票
1 回答
529 浏览

orange - 如何在 Orange 中为随机森林分类器使用样本权重?

我正在尝试在具有 2 个类(良性-恶性)的非常不平衡的数据集上训练随机森林分类器。

我已经看到并遵循了上一个问题中的代码(如何在 Orange python 包中设置和使用样本权重?)并尝试为少数类数据实例设置各种更高的权重,但我得到的分类器正好工作相同的。

我的代码:

我错过了什么吗?

0 投票
1 回答
1254 浏览

python - 我可以使用 Orange CN2 分类器只学习一个类的规则吗?

我正在使用 Orange CN2 规则归纳算法进行欺诈率非常低(低于 0.1%)的欺诈检测。默认情况下,CN2 学习两个类(欺诈和非欺诈)的规则。由于我只对欺诈类规则感兴趣,因此学习非欺诈规则是浪费时间,尤其是考虑到我需要在许多数据集上运行 CN2。CN2 是否可以只学习欺诈类规则,如果可以,如何在脚本中配置它来做到这一点?谢谢!

0 投票
2 回答
80 浏览

python - 橙色:Orange.classification.rules.RuleClassifier.rules 中规则的 class_distribution 属性中可能存在错误?

根据 Orange 文档,规则的 class_distribution 属性是“该规则涵盖的数据实例中的类分布”。但是,如果我将规则应用于用于派生规则的数据集中的数据实例,则触发规则 r 的实例数有时与 r.class_distribution 中的计数不同。

例如,如果我使用 Orange 包提供的成人样本数据集和以下代码:

82 条规则中有 32 条的 rule.class_distribution 与上面定义的 ruleFreq 不匹配。
我们以 RS[5] 为例:

据此,来自 0 类的 3 个实例触发了该规则,但是 ruleFreq0[5] = 7,这意味着当我对所有数据运行规则时,来自 0 类的 7 个实例触发了该规则。这 7 个实例由 ind0[np.where(rulesFired0[:,5])[0]] 索引。一些例子是:

最后,这是我的问题:

  1. 这是 Orange 代码中的错误,还是 class_distribution 属性指定的不是触发规则的每个类的实例数(来自用于学习规则的整个数据集)?

  2. 这个 class_distribution 是用来计算规则的质量的吗?这意味着 class_distribution 计算中的错误会导致规则质量计算中的错误。

0 投票
0 回答
839 浏览

python - Orange,Python:列表索引超出范围关联规则 - 数据需要看起来如何?

我正在玩橙色协会规则示例。 Orange Doc
我的代码看起来很像文档中的:

它正在使用来自 Orange 的数据

我们的,二,武器,是,恐惧,和,惊喜,和,无情,
效率,教皇
我们
的,我们的,武器

但是我的数据收到一个错误:

这是我的数据:

我检查了空格并使用了像示例中一样的 10 行数据的准系统/短版本,但我仍然收到此错误。
它从何而来?

0 投票
1 回答
201 浏览

orange - Orange 如何在其 Distribution 小部件中计算置信区间?

在二进制分类数据集上使用 Orange 的 Distribution 小部件时,可以选择显示所有特征值的给定类标签的概率的置信区间,请参阅:Distribution Widget Doc

这些间隔是如何计算的?我尝试使用关键字搜索github 存储库:“分布”、“置信区间”。但只找到了小部件 UI 的代码,没有找到实际统计数据计算位置的指针。

0 投票
1 回答
37 浏览

metaprogramming - 元构建能力?

我目前正在考虑将 Orange 作为我打算开发的元学习助手原型的基础,但在致力于彻底探索文档和学习 Python 开发(这两者都非常耗时)之前,我将不胜感激关于在 Orange 框架内实现此类原型的可行性的见解。

我打算开发的原型的主要目的是让非专家有效地使用数据挖掘和机器学习算法。具体来说,作为第一步,我希望能够为用户提供一个工作流来满足他的建模需求,我从他的数据集和他的需求表达中得出。为了执行此启发,我打算运行一个过程,该过程意味着在他的数据上设计和执行学习工作流。

是否可以在 Orange 框架内(或从上述“监督”框架内)自动定义和执行学习工作流程?

0 投票
1 回答
631 浏览

sql - 橙色数据挖掘软件中的sql查询

当我尝试使用 select 语句和 postgres 数据库在橙色数据挖掘软件中运行 SQL 查询时,它返回错误

无效的连接选项“密码”

我的查询如下所示: