问题标签 [exploratory-data-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
13 浏览

python-3.x - 如何在必须从 JupyterNotebook 导入的 Word 文档中添加带有滚动条的图表

我在 JupyterNotebook 中有带有滚动条的图表,我希望将其复制到我的 word 文档中。

任何建议都会有所帮助

0 投票
1 回答
33 浏览

python - 在世界地图python上绘制平均工资

我有一个国家列表,以及这些国家的人的薪水

使用这些数据,我能够计算出每个国家的平均工资。我想在带有图例的世界地图上将其可视化,其中绿色代表一定范围的薪水,红色代表另一个范围,依此类推

如何在这样的世界地图上可视化我的数据?我找不到任何图书馆

0 投票
1 回答
24 浏览

python - 如何转换包含 cgpa 和百分比值的百分比列

我有包含 10_grade 列的学生数据,其中包含百分比和 cgpa 值混合。我需要将 10_grade 列转换为百分比。python代码会很有帮助

0 投票
0 回答
32 浏览

python - 使用 matplotlib 或 seaborn 绘制任何图形的数据帧的最大索引数

我正在尝试在 Jupyter 笔记本中绘制 Seaborn Jointplot。我的数据集由 4,446,966 个索引(行)组成。但如果选择大约 5000 行,我可以获得绘图的输出。如果选择了完整的数据集,那么它会被处理很长时间但没有响应。

Python / Pandas /Seaborn / Matplotlib / Jupyter Notebook / Google Colabs / EDA / 特征工程 Image_1 Image_2

0 投票
1 回答
20 浏览

python - 根据条件选择或删除类别

我有这个示例数据集:

在此处输入图像描述

我要做的是查看 ID 列上的哪些类别的值严格高于 45,同时向我展示其他不是。所以它应该告诉我 ID 'a' 和 'd' 符合我的标准,而 'b' 和 'c' 不在其中。之后,我将删除行 'b' 和 'c'

最简单的方法是什么?

我试过了

0 投票
0 回答
15 浏览

python - 负极性的词频

我对探索性分析很陌生,但我创建了一个情绪分析

我为数据框中最常见的单词创建了 ngram

如何隔离负极性(<0)文本并创建仅分析负面情绪文本的 ngram?

0 投票
1 回答
22 浏览

pandas - 如何从 Pandas 的字符串中删除某些部分

我只想要此列中的月份,并想删除所有其余的值,我该怎么做。已经检查了所有然后 StackOverFlow 其他问题似乎没有什么最重要的工作。有人可以帮我吗:D

** **

0 投票
1 回答
23 浏览

python - 尝试绘制直方图时出现 ValueError

问题背景

我正在尝试绘制直方图以查看客户年龄在大小为 4 的 bin 中的分布。我最初使用的是不同大小的 bin,但以这种方式调整 bin 会影响图形的计数或 y 轴。

使用 plt.ylim(min, max) 是我设置 y 轴的方法。为了指定 max 变量,我尝试计算 bin 中年龄 (25<x<=35) 的最大值。

计数时我不断收到值错误。即使我使用 .astype(int) 将系列转换为整数,它也会显示另一个错误。

错误消息: ValueError:Series 的真值不明确。使用 a.empty、a.bool()、a.item()、a.any() 或 a.all()。

请问,我该如何纠正这个问题?

代码片段

0 投票
0 回答
11 浏览

data-analysis - 在 Azure Data Studio [MAC SYSTEM] 中右键单击表下的用户数据库和列时无法看到“属性”选项

脚步

1.创建用户数据库-DB1

2.创建了一个表 - TB1列 - cm1 和 cm2

3.安装扩展——“数据库管理工具扩展”

4.重新启动应用程序

5.右键单击数据库 - DB1 ................... 观察-> 我可以看到一些选项,例如“管理”但不是属性

6.右键单击创建的表 TB1 下的“cm1”列......................... 观察-> 我只能看到刷新选项,但是不是属性

7.附加步骤:尝试搜索其他相关扩展但找不到。

问题 ->如何在 MAC 系统的 AzureDataStudio 中为 DB 和列启用属性选项

0 投票
1 回答
17 浏览

python - 数据格式化和修复

我正在尝试清理他们在网络中抓取的用户评论。当我尝试阅读熊猫时。没有警告或错误。然后打印数据框的长度。

在此处输入图像描述

然后我想应用标准化步骤。但我专注于土耳其语,所以我不能使用 python 库。我将使用第三方软件。

为此,我正在尝试将评论列写入文本文件。当我写入这些数据文本文件时,样本的长度是

在此处输入图像描述

和目标大小:

在此处输入图像描述

基本上我这样做:

在此处输入图像描述

注意:正如我所提到的,这些是客户评论,正如我们预期的那样,它们又脏又吵。一些样本包含许多输入字符,例如大约 56 个样本包含“\n\n\n\n”。我曾尝试通过清理数据在 python 中解决这个问题,但每次我都丢失样本。我也尝试在 Excel 上修复它,它没有工作。

问题:您对修复数据有什么建议吗?