问题标签 [exploratory-data-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
61 浏览

python - 我想在熊猫中应用多个过滤器并相应地更改列值[正在工作]

假设我有一个这样的数据框:

实际文件中的 Fil1 列是我正在过滤的非常长的名称,但在这里我将其引用为“a”。

我使用的代码是——

将此df输出到excel。

所需的 Excel 输出:

我的代码没有给我任何错误,但它甚至没有给我想要的结果。还有其他解决方法吗?

0 投票
1 回答
138 浏览

python - 如何在熊猫数据框列中提取数据框

从熊猫数据框(3 * 5)中,如何将一列(包含数据框对象的行作为值(每行数据框为 2 * 10))提取到单独的数据框(6 * 10 行)中

parser(x) 在应用后为每一行返回一个数据框(2 * 10)。完成上述步骤后,如何从日志条目中提取出 df_inside 数据框?

0 投票
1 回答
32 浏览

python - Python:如何从给定文件中获取显示层次结构的名称?

我是python的初学者,我正在尝试使用它进行一些数据分析。我有一个如下所示的文本文件:

总之,我想做的是获得一个显示层次结构的名称。例如,top1_c_a 应命名为“top1/top1_c/top_c_a”。最后,我想得到一个包含这些名字的列表。我应该怎么办?

0 投票
0 回答
75 浏览

sql - 如何用 Big Query Materialized View 替换 SQL“WITH”

我正在尝试对 Big Query 执行一些探索性数据分析,但遇到了问题。我的 SQL 知识相当欠发达,在 BQ 方面更是如此。这段代码:

是我正在尝试使用的部分。它在 Kaggle 的流失数据集(14 列和 10k 行)上运行,但我的要大得多(145 列和 ~72m)行。尽管人口稀少,但我收到以下错误:

我听说解决这个问题的一个好方法是使用物化视图来创建临时表而不是使用,WITH但我不知道从哪里开始。

对此或任何其他解决方案的任何帮助将不胜感激。

非常感谢!

0 投票
1 回答
35 浏览

python-3.x - 如何显示两个 Pandas 数据框之间的逻辑关系?

我有两个 Pandas 数据框df1df2,都有一个键列,分别标记为id1id2。我怎么能简单地显示哪些是两个数据帧共有的键,那些只在df1那些只在的那些df2?这个想法是显示一个维恩图

  • 元素的数量仅在df1
  • 元素的数量仅在df2
  • df1和中的元素数量df2

视觉表示会很好,但不是必需的。

0 投票
1 回答
34 浏览

pandas - 在聚合操作中重命名 Lambda 函数返回的值

我希望针对数据集中的每组发布者显示各种百分位数的值。我正在尝试以下内容:

数据集的几行是:

现在我想为返回的 <lambda_0> 对象命名。我无法这样做。请指导,因为我是 Python 新手并尝试构建我的基础知识。

0 投票
3 回答
60 浏览

r - 如何使用 R 获取另一个类别的类别百分比?

好的,所以我有一个表格,对于拳头几行看起来有点像这样:

部门 诊断代码
1部 代码1
2部 代码2
3部 代码3
3部 代码3
3部 代码4
4部 代码4
4部 代码4
4部 代码5
4部 代码5
4部 代码5

我想要的是开发一个看起来像这样的表:

部门 代码1% 代码2% 代码3% 代码4% 代码5%
1部 xx% xx% xx% xx% xx%

其中上述百分比是每个部门每个代码的百分比,即代码1在部门1内出现的总次数除以部门1内“代码实例”的出现总数。所以如果代码1出现50次在部门 1 中,部门 1 在所有代码中记录了 120 个部门代码实例,百分比应该是 50/120。

我正在尝试使用 group_by()、mutate() 和 summarise() 的某种组合来完成工作,但我无法弄清楚如何正确组合和编写代码以获得我想要的输出。

当第二列是某种数字频率类型时,我已经看到很多示例代码显示类似的内容,但是当第二列由对应于离散类别的字符串组成时,我还没有找到相同的内容。

**编辑:此外,代码是字母数字。例如,一个代码可能类似于 E77.09,而另一个代码可能类似于 C30,另一个代码可能是 D24.3

0 投票
2 回答
54 浏览

python - 循环数据框python中的列

我想遍历特定数据框中的 2 列,并且我想通过列的名称访问数据,但它在第 3 行给了我这个错误(类型错误)

0 投票
1 回答
103 浏览

python - 将python输出保存为pdf?

我正在为 EDA 和 Data Science 使用 python notebook。为此,我经常使用数据准备库。我想将使用该库创建的报告保存为 pdf 格式。

0 投票
1 回答
100 浏览

python - 为什么我不能使用 matplotlib 在同一个图表中为每个产品(在数据集中)绘制单独的条形图?

我的数据集是这样的。

数据集的图像

我想阅读面霜和洗面奶产品销售数据并使用条形图显示,条形图应显示每种产品每月销售的单位数量,并在同一图表中为每种产品添加单独的条形图。

代码:

错误: