问题标签 [sklearn-pandas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何将一列保留为数据框
我有 20 列和一个索引的数据框。
它的形状类似于 (100, 20)。
我想从此数据帧中分割第三列,但希望将结果保留为 (100,1) 的数据帧。
- 如果我做 a
v = df['col3']
,我会得到一个 Series (我不想要) - 如果我做 a
v =df[df['col3']!=0]
然后v.drop(label=[list of 19 columns], axis = 1)
--- 我得到我想要的 [那是 df(100,1)] 但我必须
(a) 写一个不必要的 != 条件(我想避免)和
(b) 我必须写一个包含 19 个列名的长列表。
应该有一种更好、更清洁的方式来做我想做的事情。
python - LabelEncoder().fit_transform 与 pd.get_dummies 进行分类编码
最近引起我注意的是,如果您有这样的数据框df
:
您可以使用以下命令自动对分类数据进行编码pd.get_dummies
:
这产生了这个:
我通常LabelEncoder().fit_transform
在放入之前用于此类任务pd.get_dummies
,但如果我可以跳过一些可取的步骤。
pd.get_dummies
通过简单地使用我的整个数据帧对其进行编码, 我是否会丢失任何东西?
python - 熊猫系列的元素操作
我有一个x
带有值的熊猫系列1
,2
或3
。
我希望它具有值monkey
, gorilla
, 和tarzan
取决于值。
我想我应该做类似的事情
但它不起作用。我想这是因为它不能按元素操作。
pandas - Scikit 学习系列拆分训练测试
我有一个数据,其中包括按排序顺序排列的日期。
我想将给定的数据拆分为训练集和测试集。但是,我必须以测试必须比训练集更新的方式拆分数据。
请看给定的例子:
假设我们有按日期排列的数据:
1, 2, 3, ..., n.
从 1 到 n 的数字代表天数。
我想将其从数据中拆分为 20% 作为训练集,将 80% 的数据作为测试集。
我的代码:
不适合我!
有什么建议么?
python - 如何使用 sklearn 获取无用功能列表?
我有一个数据集来构建分类器:
我只想选择重要的功能,所以我这样做:
所以 X_new 的形状为 3000x72,而 X 的形状为 3000x130。我想获取 X_new 中存在和不存在的功能列表。我该怎么做?
X 是一个带有标题的数据框,但 X_new 是一个列表列表,其中包含没有任何名称的特征值,所以我不能像在 pandas 中那样合并它。感谢您的任何帮助!
python - iPython (python 2) - ImportError: No module named model_selection
iPython 笔记本 Python 2
抱怨这条线:
为什么模型选择不起作用?
python - ValueError:不能有拆分数 n_splits=3 大于样本数:1
我正在尝试使用 train_test_split 和决策树回归器进行这种训练建模:
运行此程序时,我收到错误:
如果我将 cv 的值更改为 1,我会得到:
数据的一些示例行如下所示:
python - TypeError: *: 'PCA' 和 'float' 不支持的操作数类型
编辑:
这是数据csv的头部:
我看到的错误:
代码:
它在抱怨最后一行
数据来自已证明可以正常工作的 csv。
python - ValueError:形状(2,2)和(4,6)未对齐:2(dim 1)!= 4(dim 0)
抱怨这条线:
代码:
数据:
数据是一个csv;标题看起来像: