问题标签 [exploratory-data-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
11 浏览

anova - 如何对重复测量进行探索性分析?

什么是可视化和/或量化重复测量探索性分析趋势的最佳方法(没有运行统计测试,因为我的研究动力不足并且被告知不要)。

背景:随机交叉设计:每个人吃 3 种不同的饮食。在每次饮食(1、2、3)后和研究开始前的基线时测量力量表现(跑步 12 分钟、最大 VO2 或卧推)。目标是探索哪种饮食最适合表现。

目前的分析思路:

组中位数:我一直在研究如何探索数据,但它在组内(同一个人完成所有饮食)这一事实意味着每个饮食的整个组中位数的简单箱线图并不代表饮食之间的个体差异/变化. 数据不是正态分布的,因此是中位数。

意大利面条图:我决定将意大利面条图放在箱线图之上,以便将个体差异可视化。这很好,但我仍然没有量化这些趋势的指标。我最初将所有饮食与基线进行了比较,但我真的想看看饮食 1 和饮食 2 之间的百分比差异,等等。但是,与基线相比,百分比变化不仅仅是减去每种饮食的组中位数(因为它出现在下面的图表上)......必须将人 A 饮食 1 - 人 A 饮食 2 并编译这些个体差异的中位数。

摘要:研究动力不足,并被告知不要在两种饮食之间使用假设检验/运行配对 t 检验或重复测量方差分析……为什么会这样?我假设我无论如何都找不到意义?但是,我现在正在努力寻找指标或可视化来描述和量化这些通常 t-test/ANOVA 负责解释的重复/“配对”测量。

我在箱线图上有意大利面,但仍然无法量化饮食之间关于组内差异的差异?......我什至不应该与基线进行比较,还是将所有饮食与基线和彼此进行比较?

谢谢 我现在的图表

0 投票
0 回答
37 浏览

python - 如何使用python输入即将到来的缺失年份数据

我有从 1981 年到 2018 年的月度和每日天气数据,但我想获得基于前几年的 2019 年和 2020 年的数据。我如何使用 python 获取 2019 年和 2020 年的数据

0 投票
1 回答
32 浏览

machine-learning - 将编码分别应用于训练和测试数据

我的数据集中有一个特征State,所以在拆分后我将编码应用于这样的训练集

像这样训练模型

然后像这样编码和预测

这是这样做的正确过程,还是我做错了什么?

0 投票
1 回答
67 浏览

pandas - ValueError:无法将字符串转换为浮点数:'n/a'

我的错误是:

我的代码是:

当我检查时,原始 Excel 数据中有一个空单元格。这是来自 ANZ 的虚拟实习。我无法捕捉到空字符串。请帮忙!

0 投票
2 回答
59 浏览

python - Pandas 数据框,从文件中读取或在函数中设置新的数据框

我正在尝试将 3 个 CSV 文件读入 3 个 pandas DataFrame。但是在执行该函数后,该变量似乎不可用。尝试在函数外部创建一个空白数据框,并在函数中读取和设置该框架。但是框架是空白的。

上述代码的 Python Notebook 错误

在第二种方法中,我试图用数据集中的一些综合信息创建一个新的数据框。该问题再次出现,因为该变量似乎不再可用。

功能中错误代码和解决方案重组的屏幕截图

我对 Python 有点陌生,代码是一个示例,不代表实际数据,在函数中,一个示例是单列的。我有多个列可以根据进一步的变化在这个派生数据集中刷新,因此是函数方法。

0 投票
1 回答
35 浏览

python - 是否可以生成具有峰值和 xy 位置的数据?

我正在尝试创建这样的 3d 曲面图,此处提供链接:

https://plotly.com/python/3d-surface-plots/ 在此处输入图像描述

但问题是我只有有限的数据可用,我只有峰位置和峰高的数据,但其余数据丢失。在示例中,z 数据需要 25 X 25 值 625 个数据点来生成有效的曲面图。

我的数据看起来像这样: 数据表_1

所以我的问题是,是否可以使用一些具有峰值位置值的多项式函数作为约束来根据我拥有的信息生成 Z 数据?

接受任何讨论。任何形式的建议都值得赞赏。

0 投票
0 回答
21 浏览

python-3.x - 纵向数据的类型

我希望了解不同类型的纵向数据。阅读一些互联网笔记并参考[一本书] [1]到目前为止,我得到的是纵向数据有两种类型

  1. 以宽表表示的多元纵向数据或面板数据
ID 值_0 值_1 价值_2 值_3 年龄 性别
1 20.34 23.45 19.32 21.23 35
2 21.34 23.23 14.32 22.23 30 F
3 22.45 22.67 16.32 20.13 33 F
  1. 使用块设计在长表中表示的单变量纵向数据
ID 时间 价值 年龄 性别
1 0 23.45 35
1 1 19.32 35
1 2 21.23 35
2 0 23.23 30 F
2 1 14.32 30 F
2 2 22.23 30 F
3 0 22.67 33 F
3 1 16.32 33 F
3 2 20.13 33 F

我怀疑实际上我可以看到第三种类型的数据,如下所示,因为我们注意到下面每个时间点都有几个条目,其值取决于测试类型。我们可以将这些数据归为哪一种类型,我们对这种类型的数据有什么术语吗?还是我们只是将其转换(通过旋转测试类型)作为单变量数据并执行与单变量相同的分析?

ID 时间 价值 年龄 性别 测试类型
1 0 23.45 35 美国广播公司
1 0 22.45 35 DBC
1 0 21.45 35 生长激素
1 1 19.32 35 生长激素
1 1 21.32 35 DBC
1 1 20.32 35 美国广播公司
1 2 21.23 35 美国广播公司
1 2 21.54 35 DBC
1 2 23.00 35 生长激素
2 0 23.23 30 F 生长激素
2 0 23.03 30 F DBC
2 0 24.13 30 F 美国广播公司
0 投票
0 回答
15 浏览

feature-engineering - ML 中的 FeatureStore 以及何时使用它们

我发现功能存储是一种在商业环境中操作 ML 管道的机制。听起来不错,但我发现在进行探索性数据分析时很难理解何时何地使用它。例如,考虑一个预测给定地理位置的房价的简单用例。我从包含历史房价的远程服务器获取原始数据,其中包含一些列(特征),如下所示:

这只是功能集的一个小表示。作为一名数据工程师,可能必须查看原始数据,进行一些简单的统计分析,例如:

  1. 识别 Null 或 NaN 值并估算它们
  2. 识别特征与目标变量的相关关系,并确定是否删除某些特征
  3. 识别数字变量的唯一计数,并在唯一计数低于某个阈值时确定删除该特征或列
  4. 删除重复行
  5. 对分类数据执行 OneHotEncoding
  6. 识别和去除异常值
  7. 执行降维/特征缩放

现在假设我将只执行前几个步骤,或者我将执行上述所有步骤,我想知道使用特征存储将如何加速或更确切地说操作我的 ML 管道?

0 投票
1 回答
48 浏览

python - 字符串索引必须是整数 json 文件

我试图使用 API 从 youtube 获取数据,希望我做到了,但是在尝试解析文件时出现错误,字符串索引必须是整数。

以下是我面临的错误...

实际上,我正试图从频道中获取第一个视频,所以我放response['items'][0]了,我很容易得到......但是当我试图解析那个视频的Video_IDandTitle时,我收到了这个错误。

但是,当我分别执行它们时,我得到了输出。

单独执行时的输出:

一起执行时的输出:

谁能帮助我并告诉我如何在一个命令中获得此输出。

0 投票
1 回答
51 浏览

python - matplotlib 中的水平堆积条

因此,我正在研究 2017 年世界幸福报告。最后,我想创建一个水平堆叠条,显示每个指标如何对每个国家的总体幸福做出贡献。我尝试以一千种不同的方式来做,但每次我得到一个不同的错误。我什至复制了一个代码并调整了必要的东西,但即使这样也显示了一个错误。有人可以帮我吗?

我将在最后附上 csv 文件。

这是我尝试过的原始代码

这显示了错误

这是我从网上复制的代码

这给出了错误

我也尝试过不使用循环,一个接一个。它仍然给出错误

这是一个给出输出的代码,但它不正确

不正确的图表

任何帮助将不胜感激

CSV 文件