问题标签 [exploratory-data-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
data-analysis - 探索多维数据的任何好方法?
假设我们有一些具有以下变量的人口普查数据:
性别、婚姻状况、教育程度、种族、职业、收入
除了收入是连续变量之外,每个变量都是分类变量。
上述 5 个分类变量为 5 个维度,第一个目标是找出这 5 个维度中的哪些段的人口规模最大?例如,细分 [男性、未婚、大学、西班牙裔、IT] 的人口规模最大。
下一个目标是找出 5 个维度中哪个部分的收入总和最高。
对于一维,直方图将起作用;二维,二维直方图也可以;3维,可能是数据立方体?但是我对3+维度一无所知,有人可以解释一下吗?
python - 创建以月份为增量的日期列表,并停止在熊猫中小于给定日期的增量
给定数据
ID | 开始日期 | 频率 |
---|---|---|
1 | 10-10-2015 | 1 |
2 | 20–10-2016 | 2 |
我需要这种格式
ID | 开始日期 | 频率 | 日期1 | 数据2 | 日期3 | 日期4 |
---|---|---|---|---|---|---|
1 | 10-10-2015 | 1 | 2016 年 10 月 10 日 | 10-10-2017 | 10-10-2018 | |
2 | 20–10-2016 | 2 | 20-04-2017 | 20-10-2017 | 20-04-2018 | 20-10-2018 |
如果频率为 1 日期以 1 年递增,且不应超过 2018 年。如果频率为 2 日期以 6 个月递增,且不应超过 2018 年。
python - 删除特定日期之前的一行中的日期,并将下一个日期移动到熊猫数据框中的行中
给定数据:
所需数据集
需要删除 2016 年 10 月之前的日期,接下来将填充删除的日期单元格。
我的代码在 2,00,000 行上很耗时,有没有简单的方法?
python - 使用 pandas 从组中拆分
我有一个名为 train 的数据框,包含以下列: 行数约为 9800
我们在 pandas 中使用 groupby 来做这样的事情:
当我们打印 dt 时,我们会输出如下内容:
有没有办法从 dt 数据帧的第二行中提取平均平均值并将其添加到训练数据集中?我对 csv 和数据帧相当陌生,如果这听起来很愚蠢,我很抱歉。
python - 如何将数据框与突出显示列分开
如何单独创建只有突出显示行的数据框或 excel?在这种情况下,只有第 1、2 行将出现在单独的 excel 或数据框中。
提前致谢!
python - 使用 Python Pandas 进行数据分析
我是使用 python 的新手。我正在查看一个数据框,其中包含有关逮捕的信息这是我的部分数据框的屏幕截图。在这些数据中,提供了个人的种族和收费描述——这两列都是。
我想将每个种族(黑人、白人、西班牙裔)分成他们自己的列并创建一个新的数据框,但现在不同的种族都在一个名为“RACE”的列下——我该怎么做?
我还想要前 5 项收费说明,它们是签发保修单、家用电池 - 身体伤害、PCS - 拥有 - POSS AMT CON SUB 除了 (A)(D)、家用电池 - 物理接触和零售盗窃/DISP MERCH/< 300 美元。有超过 13,000 种不同的收费说明,所以我只想要前 5 名。
我希望使用每个收费描述来计算每个种族的计数,以调查是否存在关于描述和给定种族的模式。更清楚地说,我想看看是否有针对特定种族的最常见的收费描述。我的预感是,黑人个人最多会签发逮捕令,因为他们占数据集中的大部分人口,而签发逮捕令是最重要的指控描述。
关于如何做到这一点的任何提示或想法?我真的很感激。到目前为止,这是我所能得到的: 比赛和收费描述的价值计数图像
[尝试用收费描述计算个人比赛,但不需要前 5 名][2]
我想创建这样的东西: 这是我要创建的新数据框