“sklearn-pandas”的相关标签问题

0 投票

1 回答

1046 浏览

python - ValueError 将 sklearn 和 pandas 用于决策树？

我是 scikit learn 的新手，我刚刚看到文档和其他几个 stackoverflow 帖子来构建决策树。我有一个包含 16 个属性和 1 个目标标签的 CSV 数据集。我应该如何将它传递给决策树分类器？我当前的代码如下所示：

当我运行代码时，它给了我以下错误：

为了提供一些背景信息，我的数据集有 501 个数据点和 17 个总列。该go列是带有是/否标签的目标列。

2016-01-28T23:01:41.073

0 投票

1 回答

1236 浏览

python-2.7 - 优化 DBSCAN 以计算运行

我在 Python 中运行 DBSCAN 算法的数据集（建模非常类似于http://scikit-learn.org/stable/auto_examples/cluster/plot_dbscan.html并作为熊猫数据框加载），总共有大约 300 万个数据点，跨越 31 天。此外，我每天进行密度聚类以查找异常值，因此 db = DBSCAN(eps=0.3, min_samples=10).fit(data)每次通过时只需运行一天的数据点即可。我在任何一天拥有的最小/最大点是 15809 和 182416。我尝试删除变量，但该过程在 DBSCAN 集群阶段被终止。

O(n log n)无论我在哪里运行它，这显然都会膨胀。我知道没有办法预先指定“标签”或集群的数量 - 还有什么是最好的？
此外，从优化的角度来看，这些数据点的某些值将是准确的（将这些视为重复的聚类点）——我可以使用这些信息在馈送到 DBSCAN 之前处理数据吗？
我在 DBSCAN 之前阅读了关于使用“树冠预聚类”来压缩数据的线程（注意这种方法在计算上同样昂贵）——我可以使用类似的东西来预处理我的数据吗？或者“并行 DBSCAN”怎么样？

python-2.7 scipy scikit-learn dbscan sklearn-pandas

2016-02-05T21:54:29.783

0 投票

1 回答

6992 浏览

python - 如何使用 Python 绘制数据集的每个属性与目标属性之间的相关系数图

我是 Python 新手，我需要在每个属性的相关系数与目标值之间绘制图表。我有一个包含大量值的输入数据集。我提供了如下示例数据集值。我们需要预测特定消费者是否会离开公司，因此结果列是目标变量。

在这里，如果您看到，结果列是字符串，其余列是整数。与结果类似，我还有一些其他列（示例中未提及）具有字符串值。在这里，我需要计算同时具有字符串和整数值的列的值。使用字典，我为每个具有字符串值的列分配了一个值。示例：结果列有是或否。因此分配的值如下：

并使用 lambda 函数，遍历数据集的每一列，并将 NO 替换为 0，将 YES 替换为 1。我尝试使用以下公式计算相关系数：

其中 S 是保存所有值的数据框。同样，我将遍历数据集的所有列，并计算每列与目标变量的相关系数。

这是计算相关系数的有效方法吗？因为，我得到的价值如下 (0.088327739664096655, 1.1787456108540725e-25) e^-25 似乎太小了。

有没有其他的计算方法？您是否会建议任何其他输入字符串值的方法，以便与具有整数值的其他列（我使用的字典和 lambda 除外）相比时，它可以被视为整数？

我还需要使用相同的代码绘制条形图。我打算使用 from matplotlib import pyplot as plt library。

你会建议任何其他功能来绘制条形图。我主要使用 sklearn 库、numpy 和 pandas 来使用它们的现有功能。如果有人帮助我，那就太好了。谢谢。

python numpy pandas scikit-learn sklearn-pandas

2016-02-15T22:56:27.963

0 投票

1 回答

2890 浏览

python - Python中浮点错误的无效文字

我正在尝试使用 sklearn 并使用 sklearn 库在 Python 中执行线性回归。

这是我用来训练和拟合模型的代码，当我运行预测函数调用时出现错误。

拟合模型后，当我尝试使用测试数据进行预测时，会引发以下错误

线性回归模型的系数是

以下是测试数据集的前五行

是因为系数值大导致的错误吗？如何解决这个问题？

python scikit-learn linear-regression sklearn-pandas

2016-02-18T17:41:02.363

0 投票

1 回答

279 浏览

python - AdaBoosClassifier 出现内存错误

我定义AdaBoostClassifier如下：

最后一行代码（我适合模型的地方）触发了 MemoryError。为什么会发生以及如何解决这个问题？

python scikit-learn sklearn-pandas

2016-02-26T21:49:11.177

0 投票

1 回答

722 浏览

machine-learning - ScikitLearn 从管道内的 FeatureUnion 中提取特征名称

我正在使用 SKlearn 的 Pipeline 模型来提取和构建一个统一的特征，然后将其发送到随机森林分类器，而一些特征提取器可以在以后删除或添加，请考虑以下结构：

我想通过检查来改进随机森林的预测

RandomForstRegressor 的属性

我设法使用以下方法获取列表：

现在我想在 feature_importances_ 索引中的列号与管道中的功能名称/步骤之间动态链接。

是否有首选方法来保存/检索功能联合中的功能名称？你会如何解决这个问题？

machine-learning scikit-learn random-forest data-science sklearn-pandas

2016-03-09T11:31:11.877

0 投票

3 回答

24311 浏览

python - sklearn SVM fit() "ValueError: setting an array element with a sequence"

我正在使用 sklearn 在我自己的一组图像上应用 svm。图像被放入数据框中。我向 fit 函数传递了一个具有 2D 列表的 numpy 数组，这些 2D 列表表示图像，我传递给函数的第二个输入是目标列表（目标是数字）。我总是收到此错误“ValueError：设置带有序列的数组元素”。

错误：

python numpy multidimensional-array svm sklearn-pandas

2016-03-20T15:10:01.940

0 投票

1 回答

399 浏览

python - 使用 Python 和 sklearn 在数据帧上执行 PCA

我有一个示例输入文件，其中包含许多行的所有变体，列表示组件的数量。

我首先将此 .txt 文件导入为：

我想进行主成分分析并绘制前两个成分（即前两列）

在阅读了以下内容后，我不确定这是否可行

两个组件的 PCA：

因此，我需要帮助将我的输入文件导入为 Python 的数据框以对其执行 PCA

python r for-loop pca sklearn-pandas

2016-03-27T16:33:13.147

0 投票

1 回答

463 浏览

optimization - 在 scikit-learn 中添加自建词汇？

在中，我们可以使用模型的参数sklearn.feature_extraction.text.TfidfVectorizer注入我们自己的词汇表。vocabulary但在这种情况下，只有我自己选择的单词用于模型。

我想在我的自定义词汇表中使用自动检测到的功能。

解决此问题的一种方法是创建模型并使用

在词汇表上附加我的列表

并再次构建模型。

有没有办法一步完成整个过程？

optimization scikit-learn feature-detection vocabulary sklearn-pandas

2016-04-05T06:25:46.133

0 投票

1 回答

1431 浏览

python - 模型的特征数量必须与输入相匹配

由于某种原因，该数据集的特征被解释为行，“模型 n_features 为 16，输入 n_features 为 18189”其中 18189 是行数，16 是正确的特征列表。

可疑代码在这里：

有人有什么想法吗？

样本训练日期 csv

样本测试数据 csv

python numpy scikit-learn sklearn-pandas

2016-04-19T15:30:02.093

问题标签 [sklearn-pandas]

Reference