问题标签 [exploratory-data-analysis]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

47 问题

0 投票

3 回答

39 浏览

python - Pandas：如何用其他列中的部分值填充列的 nan 值

我希望城市列中的值填充场地列的第一个单词

我尝试使用 df.city.fillna(value=df.venue.str.split()[0]) ，但它需要填充第一行值提前谢谢你

2021-09-01T20:25:09.877

0 投票

0 回答

18 浏览

nan - 找出两组之间的差异

我有一个包含大约 60 列、超过 100k 行的数据集。第一变量“组”将数据分为两组。第一组包含 85% 的观察，第二组包含 15%。主要目标是找出这些组之间的差异。3 列是分类的，其余的是数字变量。54 列几乎只包含 NaN 值。当我删除所有 NaN 时，我丢失了所有行。我应该使用什么样的分析、绘图或测试以及如何处理这么多的 NaN 值？

nan data-analysis distribution modeling exploratory-data-analysis

2021-09-04T14:17:59.190

0 投票

1 回答

55 浏览

r - DataExplorer，自定义单变量分布

我正在尝试使用 DataExplorer 来帮助快速 EDA。我喜欢它显示单变量分布的方式。这是一个可重现的例子。

我想通过分组变量“A”来可视化密度，如附图所示。

但我不知道如何正确使用绘图密度参数来做到这一点。此外，请建议其他软件包以轻松浏览大型数据集作为初步分析。谢谢！

r grouping density-plot exploratory-data-analysis r-data-explorer

2021-09-18T19:09:17.520

0 投票

0 回答

20 浏览

r - rm.outlier 函数没有给出错误但似乎没有改变统计值？

我有一个包含患者数据的数据框，旨在预测某人是否患有心脏病。我正在应用Rrm.outlier中outliers包中的函数。问题是在运行错误之后它似乎工作正常，但我没有看到数据集中异常值有任何变化。我试图弄清楚我可能做错了什么。

我附上了在运行函数之前和在 R 中运行函数之后查看数据结构时发生的情况的屏幕截图。

rm.outlier应用该功能之前和之后的统计指标没有差异

应用 rm.outlier 之前的变量汇总结果

应用 rm.outlier 后变量汇总的结果

r outliers exploratory-data-analysis

2021-09-28T15:26:20.783

0 投票

1 回答

18 浏览

python - 如何在 Python 中过滤数据并创建条形图？

你如何创建一个显示特定值及以上值的条形图？

我只想显示大于 6 英寸的 screen_size 值。谢谢！

python jupyter-notebook exploratory-data-analysis

2021-09-29T14:39:36.060

0 投票

0 回答

36 浏览

python - 在django中上传excel并在4个不同的网页中显示

我想上传一个包含 4 列的 excel 文件，并在不同的页面中显示每一列。

视图.py

模型.py

结构大师.html

我是 django 的新手，几乎没有什么想法。任何帮助将不胜感激。

python html django data-science exploratory-data-analysis

2021-10-06T05:08:56.250

0 投票

1 回答

24 浏览

python - 如何从包含文本的列中提取特定数字

嗨，我有一个数据集，其中有一列包含文本和多个数字，我想从列中提取一个特定数字并用它创建一个新数字。

客户出售外币产生的存款 165.22 美元，汇率为 ** 19.650000 **

这就是我在该列每一行的文字，我只对汇率感兴趣。另一个问题是，并非每一行都有它，所以当该行没有汇率时，我想使用另一列中已经设置为浮点数的数字

python pandas data-science data-analysis exploratory-data-analysis

2021-10-07T03:41:38.113

0 投票

0 回答

25 浏览

python - 基于两个单元格比较的熊猫条件公式

在计算一个名为“duration_minutes”的新列时，一些结果是负数，因为这些值被倒置在原始列中。

快速检查time[time.duration_minutes<0]“duration_minutes”列中的负数会显示许多带有负值的行，因为开始和停止时间在错误的列中。

有没有办法创建和计算“duration_minutes”列来处理这种情况？

python pandas data-analysis exploratory-data-analysis

2021-10-12T01:19:32.057

0 投票

1 回答

37 浏览

r - 删除 R 中符合特定条件的列

我想从数据框中删除零值与非零值的比率高于某个阈值（例如 0.4）的列。我编写的执行相同操作的代码如下

在这里，train1 = 我要执行操作的原始数据帧。

运行此代码后，最终数据帧“df”仍然有 4 个变量。此外，运行代码后

我得到了 df2 和 train1 中的所有列，而没有实际执行删除操作。

r dataframe dplyr data-analysis exploratory-data-analysis

2021-10-25T14:47:51.357

0 投票

1 回答

34 浏览

statistics - 将已知值外推到表中缺失值的最佳数据挖掘模型是哪个？（一般问题）

我正在从事一个小型数据挖掘项目（我仍然是数据科学专业的学生，而不是专业人士）。也许您可以帮助我为我的任务选择合适的模型。

因此，假设我们有一个包含三列和大约 4000 行的表：

年	颜色	姓名
1900	绿	大卫
1901	黄色的	莎拉
1902	绿	？？？
1902	红色的	莎拉
…</td>	…</td>	…</td>
2020	紫色的	约翰

任何字段的任何值都可以在数据集中重复（也可以是年份值）。

在前两列中，我们没有缺失值，但在第三列中我们只有大约 20% 的 Name 值。名称值在某种程度上取决于前两列（不是因果关系）。

我的目标是将可用的名称值外推到整个表，并为每个名称值获取一系列出现（例如在箱线图中）

我想象过这样的过程，虽然我不太确定它在统计上是否有意义（感谢任何反对和建议）：

对于每个未知的 NAME 值，算法随机选择一个已知的 NAME 值。选择特定名称值的几率取决于变量 YEAR 和 COLOR。例如，如果“大卫”的值往往与较低的年份值相关，并且与颜色的“绿色”或“紫色”值相关，那么如果年份和颜色的输入值为“ 1900 年，紫色”。
当上述过程结束时，计算每个名称的出现次数。
上述过程应用了 30 次，每个名称的结果都显示在 plotbox 中。

但是，我不知道哪个是实现类似想法的最佳模型。我用一张简单的油漆画出了这个过程：

任务的可能输出

您认为哪种方法可能是完成这项任务的好方法？我很感激任何帮助。

statistics data-science data-analysis data-mining exploratory-data-analysis

2021-10-26T09:47:00.397

1 2 3 4 5 6 7 8 9 10

问题标签 [exploratory-data-analysis]

Reference