问题标签 [sklearn-pandas]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
207 浏览

python - DataFrameMapper 是否保证特征向量对齐?

我的项目涉及在标题和一些度量之间建立关系。

我依靠 pandas 和 sklearn 来完成这项工作并摆脱 sklearn-pandas 的困扰,因为我发现 DataFrameMapper 可以方便地处理特征提取步骤,而不是链接大量特征联合。

简而言之,这类似于:

然后我想在这样的管道上使用它:

这种看起来应该可以工作。但我知道它不能保持我的特征的“对齐”。

当我尝试像这样训练这个简单的模型时:

它失败了:

我知道这是由于训练样本比测试样本“更大”,因此 CountVectorizer 词汇表包含的特征更少。但直观地说,我希望管道(以及其中的 DataFrameMapper)能够填充可能出现的缺失值。

在这一点上,我不知道这是否是由于我使用 DFM 错误造成的。或者,如果我错过了一些愚蠢的配置步骤。

有人可以在这里指出我的错误吗?

0 投票
1 回答
65 浏览

python-2.7 - DICT() 和 MATPLOTLIB?

我创建了一个字典来匹配 sklearn 中决策树的特征重要性与我的 df 中相应的特征名称。这里是下面的代码:

在输出中我得到了这个:

正如我所料。我有两个问题要问你:

  1. 我怎样才能创建一个条形图,其中 x 轴代表feature_namesy 轴对应的importances

  2. 如果可能的话,我怎么能以降序对条形图进行排序?

0 投票
1 回答
4156 浏览

python - 如何在 Python 中快速计算大量向量的余弦相似度?

我有一组10 万个向量,我需要根据余弦相似度检索前 25 个最接近的向量。

Scipy 和 Sklearn 有计算余弦距离/相似度 2 向量的实现,但我需要计算 100k X 100k 大小的余弦 Sim,然后取出前 25 个。python计算中是否有任何快速实现?

根据@Silmathoron 的建议,这就是我正在做的 -

0 投票
2 回答
1580 浏览

pandas - Pandas 用 NaN 值填充列中的单元格,从行中的其他单元格中获取值

我有一个数据框:

我想使用机器学习算法在其中值是 NaN 的地方填充“三”列(更新值)。

我不知道如何就地进行。示例代码:

但这给了我数据框的副本。我剩下的唯一选择是使用 for 循环,但是我不想这样做。我认为应该有更多使用熊猫的pythonic方式。有人可以帮忙吗?或者有没有其他方法可以做到这一点?

0 投票
1 回答
3035 浏览

pyspark - Pyspark 用户定义的列聚合计算

我正在为 Pyspark 中的分类器准备输入数据。我一直在 SparkSQL 中使用聚合函数来提取平均值和方差等特征。这些按活动、名称和窗口分组。Window 的计算方法是将 unix 时间戳除以 10000 以分解为 10 秒的时间窗口。

结果看起来像

我现在要做的是计算 X 中每个点的平均斜率。

为此,我需要时间戳、窗口和 X。我已经在 Python 中使用数组实现了逻辑,这就是它的样子——计算每个点之间的斜率,然后得到平均斜率。理想情况下,我想在 Pyspark 尚不支持的 UDAF 中执行此操作。(看起来像这样,假设下面的函数被称为斜坡。然后在 sql 中你可以做slope(timestamp, X) as avgSlopeX

编辑 - 更改输入,使其更清晰。 所以,我正在做的是计算每个点之间的斜率,然后返回该窗口中斜率的平均值。所以,当我得到每个窗口的平均值和方差时,我也想得到平均斜率。

我该如何实施?我应该尝试转换为熊猫数据框然后转换为 numpy 数组吗?如果是这样,我如何确保数据仍能正确映射,记住 GROUP BY 活动,sql 查询中的名称窗口。

0 投票
3 回答
895 浏览

python-2.7 - Python、Roc 曲线和 ggplot?

我按照教程显示了 roc 曲线和相应的 auc;我从未使用过 ggplot 库,因此我无法理解我的错误在哪里。这里是下面的代码:

这是错误:

我该如何解决这个问题?

0 投票
1 回答
200 浏览

python - 从 sklearn “传输”训练有素的模型的最佳实践

保存经过训练的模型并在其他地方使用的最佳实践是什么?

0 投票
2 回答
8688 浏览

python - 如何用 Python 预测第二天的股票价格?

我试图预测我的系列第二天的股价,但我不知道如何“查询”我的模型。这是我在 Python 中的代码:

好的,我需要查询模型( model.predict(..¿?..) )来预测“下一天”的股价。

我该怎么做?

提前致谢!!!

0 投票
2 回答
6452 浏览

python - 从 numpy 数组 float32 转换为 numpy 数组 float64

我正在尝试在 Python 中实现随机森林。运行代码时出现此错误。虽然我已经从using转换float32为:float64

请问有人可以帮忙吗?

0 投票
4 回答
79590 浏览

python - Pycharm 中没有名为“pandas”的模块

我阅读了有关的所有主题,但无法解决我的问题:

这是我的环境:

Ubuntu 14.04

Pycharm版本:2016.1.4

Python版本:2.7.10

熊猫版本:0.18.1

Pandas 在 Anaconda 和 Jupyter 工作。任何人都可以建议我如何解决这个问题?