问题标签 [exploratory-data-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nan - 找出两组之间的差异
我有一个包含大约 60 列、超过 100k 行的数据集。第一变量“组”将数据分为两组。第一组包含 85% 的观察,第二组包含 15%。主要目标是找出这些组之间的差异。3 列是分类的,其余的是数字变量。54 列几乎只包含 NaN 值。当我删除所有 NaN 时,我丢失了所有行。我应该使用什么样的分析、绘图或测试以及如何处理这么多的 NaN 值?
r - rm.outlier 函数没有给出错误但似乎没有改变统计值?
我有一个包含患者数据的数据框,旨在预测某人是否患有心脏病。我正在应用Rrm.outlier
中outliers
包中的函数。问题是在运行错误之后它似乎工作正常,但我没有看到数据集中异常值有任何变化。我试图弄清楚我可能做错了什么。
我附上了在运行函数之前和在 R 中运行函数之后查看数据结构时发生的情况的屏幕截图。
rm.outlier
应用该功能之前和之后的统计指标没有差异
python - 在django中上传excel并在4个不同的网页中显示
我想上传一个包含 4 列的 excel 文件,并在不同的页面中显示每一列。
视图.py
模型.py
结构大师.html
我是 django 的新手,几乎没有什么想法。任何帮助将不胜感激。
python - 如何从包含文本的列中提取特定数字
嗨,我有一个数据集,其中有一列包含文本和多个数字,我想从列中提取一个特定数字并用它创建一个新数字。
客户出售外币产生的存款 165.22 美元,汇率为 ** 19.650000 **
这就是我在该列每一行的文字,我只对汇率感兴趣。另一个问题是,并非每一行都有它,所以当该行没有汇率时,我想使用另一列中已经设置为浮点数的数字
python - 基于两个单元格比较的熊猫条件公式
在计算一个名为“duration_minutes”的新列时,一些结果是负数,因为这些值被倒置在原始列中。
快速检查time[time.duration_minutes<0]
“duration_minutes”列中的负数会显示许多带有负值的行,因为开始和停止时间在错误的列中。
有没有办法创建和计算“duration_minutes”列来处理这种情况?
r - 删除 R 中符合特定条件的列
我想从数据框中删除零值与非零值的比率高于某个阈值(例如 0.4)的列。我编写的执行相同操作的代码如下
在这里,train1 = 我要执行操作的原始数据帧。
运行此代码后,最终数据帧“df”仍然有 4 个变量。此外,运行代码后
我得到了 df2 和 train1 中的所有列,而没有实际执行删除操作。
statistics - 将已知值外推到表中缺失值的最佳数据挖掘模型是哪个?(一般问题)
我正在从事一个小型数据挖掘项目(我仍然是数据科学专业的学生,而不是专业人士)。也许您可以帮助我为我的任务选择合适的模型。
因此,假设我们有一个包含三列和大约 4000 行的表:
年 | 颜色 | 姓名 |
---|---|---|
1900 | 绿 | 大卫 |
1901 | 黄色的 | 莎拉 |
1902 | 绿 | ??? |
1902 | 红色的 | 莎拉 |
…</td> | …</td> | …</td> |
2020 | 紫色的 | 约翰 |
任何字段的任何值都可以在数据集中重复(也可以是年份值)。
在前两列中,我们没有缺失值,但在第三列中我们只有大约 20% 的 Name 值。名称值在某种程度上取决于前两列(不是因果关系)。
我的目标是将可用的名称值外推到整个表,并为每个名称值获取一系列出现(例如在箱线图中)
我想象过这样的过程,虽然我不太确定它在统计上是否有意义(感谢任何反对和建议):
对于每个未知的 NAME 值,算法随机选择一个已知的 NAME 值。选择特定名称值的几率取决于变量 YEAR 和 COLOR。例如,如果“大卫”的值往往与较低的年份值相关,并且与颜色的“绿色”或“紫色”值相关,那么如果年份和颜色的输入值为“ 1900 年,紫色”。
当上述过程结束时,计算每个名称的出现次数。
上述过程应用了 30 次,每个名称的结果都显示在 plotbox 中。
但是,我不知道哪个是实现类似想法的最佳模型。我用一张简单的油漆画出了这个过程:
您认为哪种方法可能是完成这项任务的好方法?我很感激任何帮助。