问题标签 [iris-dataset]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
1424 浏览

r - R - 神经网络 - 虹膜数据集

我尝试在 iris 数据集上使用 nnet,但我不确定如何解决下面显示的错误。任何帮助表示赞赏。谢谢。

model.frame.default(formula = species ~ ., data = irisTrain) 中的错误:可变长度不同(为“Sepal.Length”找到)

0 投票
1 回答
141 浏览

python - 与 Iris 数据集的编码差异

将数据集下载为 iris.data 后,我将其重命名为 iris.data.txt。我试图在 SO 上规避这个报告的错误:

阅读后,我尝试了这个:

这部分解决了错误,但有些行仍然是垃圾。

然后我尝试用Sublime打开它,用utf-8编码保存,然后dataset = pd.read_csv('iris.data.txt', header=None, names=names,encoding="utf-8")

但这也不能解决问题。我在 Mac OS 上运行 Python 3。什么可能使数据直接可读?

[编辑]:数据类型为:Web 存档。在 Spyder 中,该文件显示为 iris.data.webarchive

如果我尝试dataset = pd.read_csv('iris.data.webarchive', header=None),它会给出这个回溯:

如果我尝试dataset = pd.read_csv('iris.data', header=None),它会给FileNotFoundError: File b'iris.data' does not exist

0 投票
2 回答
2593 浏览

split - 将数据集拆分为训练和测试数据,保持比例

我有 Iris 数据集(可以在此处找到:https ://www.kaggle.com/uciml/iris ),我应该将其分为测试集和训练集。但是,我需要对其进行拆分,以便训练和测试集中的类分布与完整数据集中的类分布相同。

我已经看到了这个问题的最佳答案:如何将数据集拆分为训练集和验证集的类之间保持比率?但由于我对数据科学和 python 都是新手,所以我很迷茫。

对于 Iris 数据集,前 50 行是一种花,接下来的 50 行是第二种花,最后 50 行是第三种花。我该怎么写才能得到例如。每三分之一的 50% 测试数据?我真的不明白他们在上面链接的问题中是在哪里以及如何做到这一点的。如果您能像对孩子一样解释这一点,我将不胜感激。

x_train 代表花的 4 个不同特征,而 y_train 代表我们拥有的花的种类吗?

先感谢您!

编辑:我试过这个

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.5, random_state=65)

但这是一种公平的方式吗?我选择了不同数量的随机状态,直到我在测试和训练集中得到了每种花的 25 个(它总是在 1/3 左右,但我得到了 65 个)。这感觉有点像作弊...

0 投票
2 回答
379 浏览

python-3.x - 根据类索引列表生成类名列表

我正在玩 我想生成类似于但有类名而不是索引的iris_dataset列表。我这样做的方式:sklearn.datasetsiris_dataset['target']

但我想不循环遍历 的所有元素y,如何更好地做到这一点?

结果是我需要这个列表来pandas.radviz绘制正确的图例:

并进一步将其用于任何其他数据集。

0 投票
0 回答
339 浏览

python - 如何在pymc2中为多类分类制作一个简单的贝叶斯神经网络

我想在 pymc2 中为 iris 数据集构建一个 BNN 模型。

我定义了我的模型并尝试进行训练,但准确性仅0.33取决于训练和测试数据。

这是我当前的代码

我的网络架构是

我的网络架构

我不确定问题是否出在 和 的分类分布y中。而且我无法跟踪这些变量来查看里面到底是什么。y_pred_trainy_pred_testinference.trace("y")[:]

我目前的结果

您对提高这个分数有什么建议吗?

0 投票
1 回答
1198 浏览

python - 如何将 cov 函数用于数据集 iris python

我想从 iris 数据集中得到协方差,https://www.kaggle.com/jchen2186/machine-learning-with-iris-dataset/data

我正在使用 numpy,函数 -> np.cov(iris)

我得到这个错误:

没看懂什么意思。。

0 投票
1 回答
840 浏览

python - 为什么在尝试绘制散点图时会出现 KeyError?

我正在尝试制作一个简单的散点图并获得KeyError.

我试图查看是否是包含四个类的功能“组”的问题,但不是所以我不确定这里有什么问题。

预期的:

A nice colorful scatterplot

实际结果:

0 投票
2 回答
507 浏览

python - Knn 预测在 y_test 上达到 100%

我正在尝试在 Iris 数据集上实现 K-最近邻,但是在进行预测之后,yhat 100% 没有错误,一定有什么问题,我不知道它是什么......

我创建了一个名为 class_id 的列,我在其中进行了更改:

  • 塞萨萨 = 1.0
  • 杂色 = 2.0
  • 弗吉尼亚 = 3.0

该列是浮点类型。

得到 X 和 Y

type(x) 显示 nparray

type(y) 显示 nparray

规范化数据

创建训练和测试

检查最佳 K 值:

结果:

K:1分:0.9666666666666667

K:2 得分:1.0

K:3 得分:1.0

K:4 得分:1.0

K:5 得分:1.0

K:6 得分:1.0

K:7 得分:1.0

K:8 得分:1.0

K:9 得分:1.0

K:10 得分:1.0

K:11 得分:1.0

打印 y_test 和 yhat WITH K = 5

结果:

哈特:[2。1. 3. 2. 2. 1. 2. 3. 2. 2. 3. 1. 1. 1. 1. 2. 3. 2. 2. 3. 1. 3. 1. 3. 3. 3. 3. 3. 1. 1.]

y_test:[2。1. 3. 2. 2. 1. 2. 3. 2. 2. 3. 1. 1. 1. 1. 2. 3. 2. 2. 3. 1. 3. 1. 3. 3. 3. 3. 3. 1. 1.]

所有这些都不应该是100%正确的,肯定有问题

0 投票
2 回答
1807 浏览

machine-learning - Azure 机器学习中的随机种子是什么?

我正在学习 Azure 机器学习。我经常在某些步骤中遇到随机种子,例如,

  1. 拆分数据
  2. 未经训练的算法模型为二类回归、多类回归、树、森林、..

在教程中,他们选择 Random Seed 作为 '123';训练有素的模型具有很高的准确性,但是当我尝试选择其他随机整数,如 245、256、12、321 时,它表现不佳。


问题

  • 什么是随机种子整数?
  • 如何从整数值范围中仔细选择随机种子?选择它的关键或策略是什么?
  • 为什么随机种子会显着影响训练模型的机器学习评分、预测和质量?

借口

  1. 我有带萼片(长度和宽度)和花瓣(长度和宽度的 Iris-Sepal-Petal-Dataset
  2. 数据集中的最后一列是“Binomial ClassName”
  3. 我正在使用多类决策森林算法训练数据集,并按顺序使用不同的随机种子 321、123 和 12345 拆分数据
  4. 它影响训练模型的最终质量。随机种子#123 是最好的预测概率得分:1。

ML Studio 快照


观察

1.随机种子:321

随机种子 321

2. 随机种子:123

随机种子 123

3.随机种子:12345

随机种子 12345

0 投票
1 回答
113 浏览

data-science - 使用 knn 绘制虹膜数据图,在每次执行时都会给出不同的图。(在 anaconda 中使用 spyder)

嗨,我是数据科学和 python 的新手,我正在尝试使用 pandas matplotlib 编写一个 knn 分类程序。我正在使用 spyder Ide ,每个执行情节都在不断变化。我很困惑,是正确的还是我做错了,

第一次运行

在第二次执行 我怎样才能保持我的情节固定,以便我得出一些结论?