问题标签 [sklearn-pandas]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1046 浏览

python - ValueError 将 sklearn 和 pandas 用于决策树?

我是 scikit learn 的新手,我刚刚看到文档和其他几个 stackoverflow 帖子来构建决策树。我有一个包含 16 个属性和 1 个目标标签的 CSV 数据集。我应该如何将它传递给决策树分类器?我当前的代码如下所示:

当我运行代码时,它给了我以下错误:

为了提供一些背景信息,我的数据集有 501 个数据点和 17 个总列。该go列是带有是/否标签的目标列。

0 投票
1 回答
1236 浏览

python-2.7 - 优化 DBSCAN 以计算运行

我在 Python 中运行 DBSCAN 算法的数据集(建模非常类似于http://scikit-learn.org/stable/auto_examples/cluster/plot_dbscan.html并作为熊猫数据框加载),总共有大约 300 万个数据点,跨越 31 天。此外,我每天进行密度聚类以查找异常值,因此 db = DBSCAN(eps=0.3, min_samples=10).fit(data)每次通过时只需运行一天的数据点即可。我在任何一天拥有的最小/最大点是 15809 和 182416。我尝试删除变量,但该过程在 DBSCAN 集群阶段被终止。

  1. O(n log n)无论我在哪里运行它,这显然都会膨胀。我知道没有办法预先指定“标签”或集群的数量 - 还有什么是最好的?

  2. 此外,从优化的角度来看,这些数据点的某些值将是准确的(将这些视为重复的聚类点)——我可以使用这些信息在馈送到 DBSCAN 之前处理数据吗?

  3. 我在 DBSCAN 之前阅读了关于使用“树冠预聚类”来压缩数据的线程(注意这种方法在计算上同样昂贵)——我可以使用类似的东西来预处理我的数据吗?或者“并行 DBSCAN”怎么样?

0 投票
1 回答
6992 浏览

python - 如何使用 Python 绘制数据集的每个属性与目标属性之间的相关系数图

我是 Python 新手,我需要在每个属性的相关系数与目标值之间绘制图表。我有一个包含大量值的输入数据集。我提供了如下示例数据集值。我们需要预测特定消费者是否会离开公司,因此结果列是目标变量。

在这里,如果您看到,结果列是字符串,其余列是整数。与结果类似,我还有一些其他列(示例中未提及)具有字符串值。在这里,我需要计算同时具有字符串和整数值的列的值。使用字典,我为每个具有字符串值的列分配了一个值。示例:结果列有是或否。因此分配的值如下:

并使用 lambda 函数,遍历数据集的每一列,并将 NO 替换为 0,将 YES 替换为 1。我尝试使用以下公式计算相关系数:

其中 S 是保存所有值的数据框。同样,我将遍历数据集的所有列,并计算每列与目标变量的相关系数。

这是计算相关系数的有效方法吗?因为,我得到的价值如下 (0.088327739664096655, 1.1787456108540725e-25) e^-25 似乎太小了。

有没有其他的计算方法?您是否会建议任何其他输入字符串值的方法,以便与具有整数值的其他列(我使用的字典和 lambda 除外)相比时,它可以被视为整数?

我还需要使用相同的代码绘制条形图。我打算使用 from matplotlib import pyplot as plt library。

你会建议任何其他功能来绘制条形图。我主要使用 sklearn 库、numpy 和 pandas 来使用它们的现有功能。如果有人帮助我,那就太好了。谢谢。

0 投票
1 回答
2890 浏览

python - Python中浮点错误的无效文字

我正在尝试使用 sklearn 并使用 sklearn 库在 Python 中执行线性回归。

这是我用来训练和拟合模型的代码,当我运行预测函数调用时出现错误。

拟合模型后,当我尝试使用测试数据进行预测时,会引发以下错误

线性回归模型的系数是

以下是测试数据集的前五行

测试数据集

是因为系数值大导致的错误吗?如何解决这个问题?

0 投票
1 回答
279 浏览

python - AdaBoosClassifier 出现内存错误

我定义AdaBoostClassifier如下:

最后一行代码(我适合模型的地方)触发了 MemoryError。为什么会发生以及如何解决这个问题?

0 投票
1 回答
722 浏览

machine-learning - ScikitLearn 从管道内的 FeatureUnion 中提取特征名称

我正在使用 SKlearn 的 Pipeline 模型来提取和构建一个统一的特征,然后将其发送到随机森林分类器,而一些特征提取器可以在以后删除或添加,请考虑以下结构:

我想通过检查来改进随机森林的预测

RandomForstRegressor 的属性

我设法使用以下方法获取列表:

现在我想在 feature_importances_ 索引中的列号与管道中的功能名称/步骤之间动态链接。

是否有首选方法来保存/检索功能联合中的功能名称?你会如何解决这个问题?

0 投票
3 回答
24311 浏览

python - sklearn SVM fit() "ValueError: setting an array element with a sequence"

我正在使用 sklearn 在我自己的一组图像上应用 svm。图像被放入数据框中。我向 fit 函数传递了一个具有 2D 列表的 numpy 数组,这些 2D 列表表示图像,我传递给函数的第二个输入是目标列表(目标是数字)。我总是收到此错误“ValueError:设置带有序列的数组元素”。

错误:

0 投票
1 回答
399 浏览

python - 使用 Python 和 sklearn 在数据帧上执行 PCA

我有一个示例输入文件,其中包含许多行的所有变体,列表示组件的数量。

我首先将此 .txt 文件导入为:

我想进行主成分分析并绘制前两个成分(即前两列)

在阅读了以下内容后,我不确定这是否可行

两个组件的 PCA:

因此,我需要帮助将我的输入文件导入为 Python 的数据框以对其执行 PCA

0 投票
1 回答
463 浏览

optimization - 在 scikit-learn 中添加自建词汇?

在中,我们可以使用模型的参数sklearn.feature_extraction.text.TfidfVectorizer注入我们自己的词汇表。vocabulary但在这种情况下,只有我自己选择的单词用于模型。

我想在我的自定义词汇表中使用自动检测到的功能。

解决此问题的一种方法是创建模型并使用

在词汇表上附加我的列表

并再次构建模型。

有没有办法一步完成整个过程?

0 投票
1 回答
1431 浏览

python - 模型的特征数量必须与输入相匹配

由于某种原因,该数据集的特征被解释为行,“模型 n_features 为 16,输入 n_features 为 18189”其中 18189 是行数,16 是正确的特征列表。

可疑代码在这里:

有人有什么想法吗?

样本训练日期 csv

样本测试数据 csv