问题标签 [exploratory-data-analysis]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

47 问题

0 投票

0 回答

14 浏览

data-analysis - 探索多维数据的任何好方法？

假设我们有一些具有以下变量的人口普查数据：

性别、婚姻状况、教育程度、种族、职业、收入

除了收入是连续变量之外，每个变量都是分类变量。

上述 5 个分类变量为 5 个维度，第一个目标是找出这 5 个维度中的哪些段的人口规模最大？例如，细分 [男性、未婚、大学、西班牙裔、IT] 的人口规模最大。

下一个目标是找出 5 个维度中哪个部分的收入总和最高。

对于一维，直方图将起作用；二维，二维直方图也可以；3维，可能是数据立方体？但是我对3+维度一无所知，有人可以解释一下吗？

data-analysis data-mining exploratory-data-analysis

2022-02-15T21:11:10.940

0 投票

1 回答

28 浏览

python - 创建以月份为增量的日期列表，并停止在熊猫中小于给定日期的增量

给定数据

ID	开始日期	频率
1	10-10-2015	1
2	20–10-2016	2

我需要这种格式

ID	开始日期	频率	日期1	数据2	日期3	日期4
1	10-10-2015	1	2016 年 10 月 10 日	10-10-2017	10-10-2018
2	20–10-2016	2	20-04-2017	20-10-2017	20-04-2018	20-10-2018

如果频率为 1 日期以 1 年递增，且不应超过 2018 年。如果频率为 2 日期以 6 个月递增，且不应超过 2018 年。

python pandas dataframe data-analysis exploratory-data-analysis

2022-02-16T16:29:14.003

0 投票

1 回答

30 浏览

python - 删除特定日期之前的一行中的日期，并将下一个日期移动到熊猫数据框中的行中

给定数据：

所需数据集

需要删除 2016 年 10 月之前的日期，接下来将填充删除的日期单元格。

我的代码在 2,00,000 行上很耗时，有没有简单的方法？

python pandas dataframe analytics exploratory-data-analysis

2022-02-17T09:19:33.403

0 投票

1 回答

121 浏览

python - 使用 pandas 从组中拆分

我有一个名为 train 的数据框，包含以下列：行数约为 9800

我们在 pandas 中使用 groupby 来做这样的事情：

当我们打印 dt 时，我们会输出如下内容：

有没有办法从 dt 数据帧的第二行中提取平均平均值并将其添加到训练数据集中？我对 csv 和数据帧相当陌生，如果这听起来很愚蠢，我很抱歉。

python pandas dataframe data-analysis exploratory-data-analysis

2022-02-19T15:42:45.673

0 投票

1 回答

45 浏览

python - 如何将数据框与突出显示列分开

如何单独创建只有突出显示行的数据框或 excel？在这种情况下，只有第 1、2 行将出现在单独的 excel 或数据框中。

提前致谢！

python pandas dataframe exploratory-data-analysis styler

2022-02-21T08:26:56.750

0 投票

0 回答

34 浏览

python - 使用 Python Pandas 进行数据分析

我是使用 python 的新手。我正在查看一个数据框，其中包含有关逮捕的信息这是我的部分数据框的屏幕截图。在这些数据中，提供了个人的种族和收费描述——这两列都是。

我想将每个种族（黑人、白人、西班牙裔）分成他们自己的列并创建一个新的数据框，但现在不同的种族都在一个名为“RACE”的列下——我该怎么做？

我还想要前 5 项收费说明，它们是签发保修单、家用电池 - 身体伤害、PCS - 拥有 - POSS AMT CON SUB 除了 (A)(D)、家用电池 - 物理接触和零售盗窃/DISP MERCH/< 300 美元。有超过 13,000 种不同的收费说明，所以我只想要前 5 名。

我希望使用每个收费描述来计算每个种族的计数，以调查是否存在关于描述和给定种族的模式。更清楚地说，我想看看是否有针对特定种族的最常见的收费描述。我的预感是，黑人个人最多会签发逮捕令，因为他们占数据集中的大部分人口，而签发逮捕令是最重要的指控描述。

关于如何做到这一点的任何提示或想法？我真的很感激。到目前为止，这是我所能得到的：比赛和收费描述的价值计数图像

[尝试用收费描述计算个人比赛，但不需要前 5 名][2]

我想创建这样的东西：这是我要创建的新数据框

python pandas data-science exploratory-data-analysis

2022-02-26T17:01:38.030

0 投票

0 回答

20 浏览

python - 为分类数据编码

我正在尝试对分类列进行编码。在名为 data 的列中有 4 个分类值

我使用 category_encoders 像这样转换

import category_encoders as ce

encoder= ce.BinaryEncoder(cols=['Technology'],return_df=True)

#Fit and Transform Data

data_encoded=encoder.fit_transform(data)

但是，结果显示只有 3 列而不是 4 列。

有谁知道如何解决这个问题？TIA

python data-analysis encoder exploratory-data-analysis

2022-02-28T19:57:44.073

1 2 3 4 5 6 7 8 9 10