问题标签 [exploratory-data-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
39 浏览

python - Pandas:如何用其他列中的部分值填充列的 nan 值

我希望城市列中的值填充场地列的第一个单词

在此处输入图像描述

我尝试使用 df.city.fillna(value=df.venue.str.split()[0]) ,但它需要填充第一行值提前谢谢你

0 投票
0 回答
18 浏览

nan - 找出两组之间的差异

我有一个包含大约 60 列、超过 100k 行的数据集。第一变量“组”将数据分为两组。第一组包含 85% 的观察,第二组包含 15%。主要目标是找出这些组之间的差异。3 列是分类的,其余的是数字变量。54 列几乎只包含 NaN 值。当我删除所有 NaN 时,我丢失了所有行。我应该使用什么样的分析、绘图或测试以及如何处理这么多的 NaN 值?

0 投票
1 回答
55 浏览

r - DataExplorer,自定义单变量分布

我正在尝试使用 DataExplorer 来帮助快速 EDA。我喜欢它显示单变量分布的方式。这是一个可重现的例子。

我想通过分组变量“A”来可视化密度,如附图所示。在此处输入图像描述

但我不知道如何正确使用绘图密度参数来做到这一点。此外,请建议其他软件包以轻松浏览大型数据集作为初步分析。谢谢!

0 投票
0 回答
20 浏览

r - rm.outlier 函数没有给出错误但似乎没有改变统计值?

我有一个包含患者数据的数据框,旨在预测某人是否患有心脏病。我正在应用Rrm.outlieroutliers包中的函数。问题是在运行错误之后它似乎工作正常,但我没有看到数据集中异常值有任何变化。我试图弄清楚我可能做错了什么。

我附上了在运行函数之前和在 R 中运行函数之后查看数据结构时发生的情况的屏幕截图。

rm.outlier应用该功能之前和之后的统计指标没有差异

应用 rm.outlier 之前的变量汇总结果

应用 rm.outlier 后变量汇总的结果

0 投票
1 回答
18 浏览

python - 如何在 Python 中过滤数据并创建条形图?

你如何创建一个显示特定值及以上值的条形图?图片显示使用过的手机数据

我只想显示大于 6 英寸的 screen_size 值。谢谢!

0 投票
0 回答
36 浏览

python - 在django中上传excel并在4个不同的网页中显示

我想上传一个包含 4 列的 excel 文件,并在不同的页面中显示每一列。

视图.py

模型.py

结构大师.html

我是 django 的新手,几乎没有什么想法。任何帮助将不胜感激。

0 投票
1 回答
24 浏览

python - 如何从包含文本的列中提取特定数字

嗨,我有一个数据集,其中有一列包含文本和多个数字,我想从列中提取一个特定数字并用它创建一个新数字。

客户出售外币产生的存款 165.22 美元,汇率为 ** 19.650000 **

这就是我在该列每一行的文字,我只对汇率感兴趣。另一个问题是,并非每一行都有它,所以当该行没有汇率时,我想使用另一列中已经设置为浮点数的数字

0 投票
0 回答
25 浏览

python - 基于两个单元格比较的熊猫条件公式

在计算一个名为“duration_minutes”的新列时,一些结果是负数,因为这些值被倒置在原始列中。

快速检查time[time.duration_minutes<0]“duration_minutes”列中的负数会显示许多带有负值的行,因为开始和停止时间在错误的列中。

有没有办法创建和计算“duration_minutes”列来处理这种情况?

0 投票
1 回答
37 浏览

r - 删除 R 中符合特定条件的列

我想从数据框中删除零值与非零值的比率高于某个阈值(例如 0.4)的列。我编写的执行相同操作的代码如下

在这里,train1 = 我要执行操作的原始数据帧。

运行此代码后,最终数据帧“df”仍然有 4 个变量。此外,运行代码后

我得到了 df2 和 train1 中的所有列,而没有实际执行删除操作。

0 投票
1 回答
34 浏览

statistics - 将已知值外推到表中缺失值的最佳数据挖掘模型是哪个?(一般问题)

我正在从事一个小型数据挖掘项目(我仍然是数据科学专业的学生,​​而不是专业人士)。也许您可以帮助我为我的任务选择合适的模型。

因此,假设我们有一个包含三列和大约 4000 行的表:

颜色 姓名
1900 绿 大卫
1901 黄色的 莎拉
1902 绿 ???
1902 红色的 莎拉
…</td> …</td> …</td>
2020 紫色的 约翰

任何字段的任何值都可以在数据集中重复(也可以是年份值)

在前两列中,我们没有缺失值,但在第三列中我们只有大约 20% 的 Name 值。名称值在某种程度上取决于前两列(不是因果关系)。

我的目标是将可用的名称值外推到整个表,并为每个名称值获取一系列出现(例如在箱线图中)

我想象过这样的过程,虽然我不太确定它在统计上是否有意义(感谢任何反对和建议):

  1. 对于每个未知的 NAME 值,算法随机选择一个已知的 NAME 值。选择特定名称值的几率取决于变量 YEAR 和 COLOR。例如,如果“大卫”的值往往与较低的年份值相关,并且与颜色的“绿色”或“紫色”值相关,那么如果年份和颜色的输入值为“ 1900 年,紫色”。

  2. 当上述过程结束时,计算每个名称的出现次数。

  3. 上述过程应用了 30 次,每个名称的结果都显示在 plotbox 中。

但是,我不知道哪个是实现类似想法的最佳模型。我用一张简单的油漆画出了这个过程:

任务的可能输出

您认为哪种方法可能是完成这项任务的好方法?我很感激任何帮助。