问题标签 [iris-dataset]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R - 神经网络 - 虹膜数据集
我尝试在 iris 数据集上使用 nnet,但我不确定如何解决下面显示的错误。任何帮助表示赞赏。谢谢。
model.frame.default(formula = species ~ ., data = irisTrain) 中的错误:可变长度不同(为“Sepal.Length”找到)
python - 与 Iris 数据集的编码差异
将数据集下载为 iris.data 后,我将其重命名为 iris.data.txt。我试图在 SO 上规避这个报告的错误:
阅读后,我尝试了这个:
这部分解决了错误,但有些行仍然是垃圾。
然后我尝试用Sublime打开它,用utf-8编码保存,然后dataset = pd.read_csv('iris.data.txt', header=None, names=names,encoding="utf-8")
但这也不能解决问题。我在 Mac OS 上运行 Python 3。什么可能使数据直接可读?
[编辑]:数据类型为:Web 存档。在 Spyder 中,该文件显示为 iris.data.webarchive
如果我尝试dataset = pd.read_csv('iris.data.webarchive', header=None)
,它会给出这个回溯:
如果我尝试dataset = pd.read_csv('iris.data', header=None)
,它会给FileNotFoundError: File b'iris.data' does not exist
split - 将数据集拆分为训练和测试数据,保持比例
我有 Iris 数据集(可以在此处找到:https ://www.kaggle.com/uciml/iris ),我应该将其分为测试集和训练集。但是,我需要对其进行拆分,以便训练和测试集中的类分布与完整数据集中的类分布相同。
我已经看到了这个问题的最佳答案:如何将数据集拆分为训练集和验证集的类之间保持比率?但由于我对数据科学和 python 都是新手,所以我很迷茫。
对于 Iris 数据集,前 50 行是一种花,接下来的 50 行是第二种花,最后 50 行是第三种花。我该怎么写才能得到例如。每三分之一的 50% 测试数据?我真的不明白他们在上面链接的问题中是在哪里以及如何做到这一点的。如果您能像对孩子一样解释这一点,我将不胜感激。
x_train 代表花的 4 个不同特征,而 y_train 代表我们拥有的花的种类吗?
先感谢您!
编辑:我试过这个
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.5, random_state=65)
但这是一种公平的方式吗?我选择了不同数量的随机状态,直到我在测试和训练集中得到了每种花的 25 个(它总是在 1/3 左右,但我得到了 65 个)。这感觉有点像作弊...
python-3.x - 根据类索引列表生成类名列表
我正在玩
我想生成类似于但有类名而不是索引的iris_dataset
列表。我这样做的方式:sklearn.datasets
iris_dataset['target']
但我想不循环遍历 的所有元素y
,如何更好地做到这一点?
结果是我需要这个列表来pandas.radviz
绘制正确的图例:
并进一步将其用于任何其他数据集。
python - 如何将 cov 函数用于数据集 iris python
我想从 iris 数据集中得到协方差,https://www.kaggle.com/jchen2186/machine-learning-with-iris-dataset/data
我正在使用 numpy,函数 -> np.cov(iris)
我得到这个错误:
没看懂什么意思。。
python - 为什么在尝试绘制散点图时会出现 KeyError?
我正在尝试制作一个简单的散点图并获得KeyError
.
我试图查看是否是包含四个类的功能“组”的问题,但不是所以我不确定这里有什么问题。
预期的:
A nice colorful scatterplot
实际结果:
python - Knn 预测在 y_test 上达到 100%
我正在尝试在 Iris 数据集上实现 K-最近邻,但是在进行预测之后,yhat 100% 没有错误,一定有什么问题,我不知道它是什么......
我创建了一个名为 class_id 的列,我在其中进行了更改:
- 塞萨萨 = 1.0
- 杂色 = 2.0
- 弗吉尼亚 = 3.0
该列是浮点类型。
得到 X 和 Y
type(x) 显示 nparray
type(y) 显示 nparray
规范化数据
创建训练和测试
检查最佳 K 值:
结果:
K:1分:0.9666666666666667
K:2 得分:1.0
K:3 得分:1.0
K:4 得分:1.0
K:5 得分:1.0
K:6 得分:1.0
K:7 得分:1.0
K:8 得分:1.0
K:9 得分:1.0
K:10 得分:1.0
K:11 得分:1.0
打印 y_test 和 yhat WITH K = 5
结果:
哈特:[2。1. 3. 2. 2. 1. 2. 3. 2. 2. 3. 1. 1. 1. 1. 2. 3. 2. 2. 3. 1. 3. 1. 3. 3. 3. 3. 3. 1. 1.]
y_test:[2。1. 3. 2. 2. 1. 2. 3. 2. 2. 3. 1. 1. 1. 1. 2. 3. 2. 2. 3. 1. 3. 1. 3. 3. 3. 3. 3. 1. 1.]
所有这些都不应该是100%正确的,肯定有问题
machine-learning - Azure 机器学习中的随机种子是什么?
我正在学习 Azure 机器学习。我经常在某些步骤中遇到随机种子,例如,
- 拆分数据
- 未经训练的算法模型为二类回归、多类回归、树、森林、..
在教程中,他们选择 Random Seed 作为 '123';训练有素的模型具有很高的准确性,但是当我尝试选择其他随机整数,如 245、256、12、321 时,它表现不佳。
问题
- 什么是随机种子整数?
- 如何从整数值范围中仔细选择随机种子?选择它的关键或策略是什么?
- 为什么随机种子会显着影响训练模型的机器学习评分、预测和质量?
借口
- 我有带萼片(长度和宽度)和花瓣(长度和宽度)的 Iris-Sepal-Petal-Dataset
- 数据集中的最后一列是“Binomial ClassName”
- 我正在使用多类决策森林算法训练数据集,并按顺序使用不同的随机种子 321、123 和 12345 拆分数据
- 它影响训练模型的最终质量。随机种子#123 是最好的预测概率得分:1。
观察
1.随机种子:321
2. 随机种子:123
3.随机种子:12345