问题标签 [sklearn-pandas]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
5766 浏览

pandas - 将 Sklearn TFIDF 与其他数据相结合

我正在尝试为监督学习准备数据。我有我的 Tfidf 数据,它是从我的数据框中名为“合并”的列生成的

但我还需要在这个矩阵中添加额外的列。对于 TFIDF 矩阵中的每个文档,我都有一个附加数字特征的列表。每个列表的长度为 40,它由浮点数组成。

因此,为了澄清起见,我有 57,629 个长度为 40 的列表,我想将它们附加到我的 TDIDF 结果中。

目前,我在 DataFrame 中有这个,示例数据:merged["other_data"]。下面是来自合并 ["other_data"] 的示例行

如何将我的数据框列的 57,629 行附加到 TF-IDF 矩阵?老实说,我不知道从哪里开始,并希望得到任何指示/指导。

0 投票
1 回答
2329 浏览

machine-learning - sklearn SGDClassifier fit() 与 partial_fit()

我对. fit()_ 文档说,“使用随机梯度下降拟合线性模型。”。partial_fit()SGDClassifier

我对随机梯度下降的了解是,在一次迭代中更新模型的参数需要一个(或整体的一小部分)训练示例。梯度下降在每次迭代中使用整个数据集。我想使用逻辑回归训练模型。我想实现正常的梯度下降和随机梯度下降并比较它们所需的时间。如何做到这一点SGDClassifier?方法是否fit()像正常的梯度下降一样工作?

0 投票
0 回答
215 浏览

python-2.7 - sklearn.decomposition.KernelPCA

当我运行下面的代码时,我遇到了以下问题。(仅供参考。我已经使用 GIT Shell 使用以下命令 pip install -U scikit-learn 安装了 scikit-learn)

我收到以下错误

0 投票
1 回答
5440 浏览

python - 在一个简单的 pandas 数据框上使用 tsfresh

我正在尝试在我制作的一个简单的 pandas 数据框中提取特征(tsfresh.extract_features)。每次我运行和打印特征时,我只是将每个计算的特征作为 0 或 NaN。我已经尝试阅读了很多文档,但似乎无法理解它。

这是代码:

任何帮助表示赞赏。

谢谢

0 投票
1 回答
1646 浏览

python - sklearn 中的 MinMax Scaler 不会标准化 0 到 1 之间的列值

我正在研究 python 中的 KNN 算法,并尝试使用 MinMaxScaler 标准化我的数据帧,以将数据转换为 0 到 1 之间的范围内的数据。

但是,当我返回输出时,我观察到某些列的最小/最大输出超过了 1。我用错了吗?

下面是我返回的最小/最大值的片段: 在此处输入图像描述

使用的代码是:

特征包含包含列的数据框(例如,错误片段,紧急......)。

如果我理解正确,在执行 MinMaxScaler 之后,返回的结果将确保每列值将被规范化为仅从 0 -1 的范围。我对吗?

0 投票
1 回答
1275 浏览

python - 导入 sklearn 时出现不可排序的类型错误

我在 Windows 上安装了 numpy(1.12.0b1)、Scipy(0.18)。我也安装了 sci-kit。当我在 python 控制台中编写“import sklearn”时,它给出了这样的错误: if np_version < (1, 12, 0): TypeError: unorderable types: str() < int() 会有什么问题?

0 投票
2 回答
443 浏览

machine-learning - 使用虚拟值是否会使模型的性能更好?

我看到许多特征工程在对象特征上都有 get_dummies 步骤。例如,将包含“M”和“F”的性别列虚拟成两列,并将它们标记为 one-hot 表示。为什么我们不直接将性别列中的'M'和'F'设为0和1?虚拟方法在分类和回归模型中对机器学习模型有积极影响吗?如果是,为什么?谢谢。

0 投票
2 回答
1015 浏览

machine-learning - 如何在特征工程中的对象属性中填充空值?

我在特征工程中研究了 Kaggle 上的填充空方法。一些玩家用另一个对象值填充 NA。

例如,性别列中有“男性”、“女性”和 NA 值。该方法是用另一个对象值填充 NA,例如“Middle”。之后,它会处理不带任何 null 的 sex 属性,pandas 不会找到 null。

我想知道该方法对机器学习模型的性能或良好的特征工程有很好的影响吗?除此之外,在数据集中没有发现知识后,还有其他好的方法来填充 NA 吗?

0 投票
1 回答
1063 浏览

pandas - 无法从 sklearn 中的 csv 文件中 fit_transform 数据

我正在尝试在 Scikit-learn 中学习一些分类。但是,我无法弄清楚这个错误意味着什么。

这会引发错误:

我该如何解决这个问题?我的 csv 文件中的一条记录如下所示:

我想这个错误是由于 Director 或 Actors 列下有多个值。任何帮助,将不胜感激。谢谢,

0 投票
1 回答
766 浏览

python - 将年的数据框列转换为月日年

我这样做是为了家庭作业。

我的目标是创建一个全新的专栏,只记录过去的日子。这有 500,000 多行......所以我的目标是:

  1. 在 Pandas 数据框中,我有这两个格式不同的日期列。我想减去这两列,然后创建一个新的“Days Elapsed”列,它是一个简单的整数列表。
  2. 输出到新的 CSV(此代码已完成)
  3. 现在我可以完全避免每次重新编写代码/读取 CSV 时解析日期,因为这会花费很长时间并减慢我的工作速度。

我正在尝试将其转换为:

进入:

当前尝试: