问题标签 [exploratory-data-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
14 浏览

data-analysis - 探索多维数据的任何好方法?

假设我们有一些具有以下变量的人口普查数据:

性别、婚姻状况、教育程度、种族、职业、收入

除了收入是连续变量之外,每个变量都是分类变量。

上述 5 个分类变量为 5 个维度,第一个目标是找出这 5 个维度中的哪些段的人口规模最大?例如,细分 [男性、未婚、大学、西班牙裔、IT] 的人口规模最大。

下一个目标是找出 5 个维度中哪个部分的收入总和最高。

对于一维,直方图将起作用;二维,二维直方图也可以;3维,可能是数据立方体?但是我对3+维度一无所知,有人可以解释一下吗?

0 投票
1 回答
28 浏览

python - 创建以月份为增量的日期列表,并停止在熊猫中小于给定日期的增量

给定数据

ID 开始日期 频率
1 10-10-2015 1
2 20–10-2016 2

我需要这种格式

ID 开始日期 频率 日期1 数据2 日期3 日期4
1 10-10-2015 1 2016 年 10 月 10 日 10-10-2017 10-10-2018
2 20–10-2016 2 20-04-2017 20-10-2017 20-04-2018 20-10-2018

如果频率为 1 日期以 1 年递增,且不应超过 2018 年。如果频率为 2 日期以 6 个月递增,且不应超过 2018 年。

0 投票
1 回答
30 浏览

python - 删除特定日期之前的一行中的日期,并将下一个日期移动到熊猫数据框中的行中

给定数据:

所需数据集

需要删除 2016 年 10 月之前的日期,接下来将填充删除的日期单元格。

我的代码在 2,00,000 行上很耗时,有没有简单的方法?

0 投票
1 回答
121 浏览

python - 使用 pandas 从组中拆分

我有一个名为 train 的数据框,包含以下列: 行数约为 9800

我们在 pandas 中使用 groupby 来做这样的事情:

当我们打印 dt 时,我们会输出如下内容:

有没有办法从 dt 数据帧的第二行中提取平均平均值并将其添加到训练数据集中?我对 csv 和数据帧相当陌生,如果这听起来很愚蠢,我很抱歉。

0 投票
1 回答
45 浏览

python - 如何将数据框与突出显示列分开

如何单独创建只有突出显示行的数据框或 excel?在这种情况下,只有第 1、2 行将出现在单独的 excel 或数据框中。

提前致谢!

0 投票
0 回答
34 浏览

python - 使用 Python Pandas 进行数据分析

我是使用 python 的新手。我正在查看一个数据框,其中包含有关逮捕的信息这是我的部分数据框的屏幕截图。在这些数据中,提供了个人的种族和收费描述——这两列都是。

我想将每个种族(黑人、白人、西班牙裔)分成他们自己的列并创建一个新的数据框,但现在不同的种族都在一个名为“RACE”的列下——我该怎么做?

我还想要前 5 项收费说明,它们是签发保修单、家用电池 - 身体伤害、PCS - 拥有 - POSS AMT CON SUB 除了 (A)(D)、家用电池 - 物理接触和零售盗窃/DISP MERCH/< 300 美元。有超过 13,000 种不同的收费说明,所以我只想要前 5 名。

我希望使用每个收费描述来计算每个种族的计数,以调查是否存在关于描述和给定种族的模式。更清楚地说,我想看看是否有针对特定种族的最常见的收费描述。我的预感是,黑人个人最多会签发逮捕令,因为他们占数据集中的大部分人口,而签发逮捕令是最重要的指控描述。

关于如何做到这一点的任何提示或想法?我真的很感激。到目前为止,这是我所能得到的: 比赛和收费描述的价值计数图像

[尝试用收费描述计算个人比赛,但不需要前 5 名][2]

我想创建这样的东西: 这是我要创建的新数据框

0 投票
0 回答
20 浏览

python - 为分类数据编码

我正在尝试对分类列进行编码。在名为 data 的列中有 4 个分类值

在此处输入图像描述

我使用 category_encoders 像这样转换

import category_encoders as ce

encoder= ce.BinaryEncoder(cols=['Technology'],return_df=True)

#Fit and Transform Data

data_encoded=encoder.fit_transform(data)

但是,结果显示只有 3 列而不是 4 列。

在此处输入图像描述

有谁知道如何解决这个问题?TIA