问题标签 [describe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
998 浏览

python - Pandas Dataframe groupby 描述 8x ~ 比单独计算慢

以下代码使用两种不同的方法总结了数值数据。

一种方法使用 Dataframe().describe() 并传递一些特定的额外百分位数。

第二种方法分别计算汇总统计信息(均值、标准差、N),将其堆叠,计算相同的分位数,然后将两者附加并按索引排序,因此结果与第一种方法基本相同。

有一些小的命名差异,我们可以清理后记,因为汇总的数据很小,所以速度非常快。

事实证明,在这个例子中使用 describe 函数大约慢了 8 倍。

我正在寻找原因以及可能会加快速度的任何其他方法的建议(过滤器、组、值)都从 UI 传递到龙卷风服务 - 所以速度很重要,因为用户正在等待结果,并且数据可以比这个例子更大。

我的电脑上的时间是:

使用描述:每个循环 873 毫秒 ± 8.9 毫秒(平均值 ± 标准偏差。7 次运行,每个循环 1 个)

使用两步法:每个循环 105 ms ± 490 µs(平均值 ± 标准偏差。7 次运行,每次 10 个循环)

欢迎所有输入!

0 投票
1 回答
464 浏览

node.js - Mocha selenium web 测试中的嵌套 forEach 失败

我正在编写一个应该执行以下操作的测试脚本(这是一个示例,但逻辑和结构是相同的)。

  • 对于 arr1 中的每个项目,调用函数 arr_func_1。
  • 在 arr_func_1 中,记录当前项目,然后为 arr2 中的每个项目调用函数 arr_func_2。
  • 在 arr_func_2 中,记录当前项目。

调用包含在 its() 中,因为如果数组中的一个元素失败,那么它需要优雅地失败并继续处理数组中的下一个元素。

对此的预期结果应该是:

1 10 20 30 2 10 20 30 3 10 20 30

相反,我收到 1 2 3

这让我相信初始函数是异步调用的。

0 投票
0 回答
127 浏览

pandas - 如果值很大,Pandas describe () 返回无意义的数字

我使用 Pandas describe () 并想检查我的数据的基本统计信息。但是,我上一篇专栏的结果看起来很奇怪。研发费用的实际值都在70-50万左右,尽管我认为这不是主要原因。有没有人有任何想法?非常感谢。

我的代码:

结果:

最后一列的结果都像 3.530000e+02, 5.239104e+05, 9.672606e+05...等

在此处输入图像描述

0 投票
1 回答
94 浏览

python - 在 python 中调用 .describe 函数时,如何规范化列?我想要 2 位小数的输出

在此处输入图像描述

在 python 中调用 .describe 函数时,如何规范化列?我想要两位小数的输出。

0 投票
1 回答
4323 浏览

python - 确保在第二次调用 .describe() 时正确排除了对象类型变量

我在datacamp中执行一个主题如下:

探索您的数据 现在,您将使用 Python pandas 模块执行一些数据探索。要了解数据,您将输出平均值、中位数、计数和百分位数等统计数据。DataFrame recent_grads 仍在您的工作区中

标题希望的目标如下:

我的代码如下

但是,出现的错误信息如下

确保在第二次调用 .describe() 时正确排除了对象类型变量

请问链接哪一部分错了,麻烦求助,谢谢!

0 投票
2 回答
1400 浏览

amazon-web-services - 按时间创建日期使用 boto3 列出 AMI?

我正在使用 boto3 API 来描述来自 AWS 的图像。我的列表 AMI 具有相同的名称,AWS 会自动在该名称上生成后缀。我想知道在创建时间顺序列表中是否有 describe_image 的选项。目前我必须以编程方式对该返回字典进行排序。

任何帮助,将不胜感激。

0 投票
1 回答
676 浏览

pandas - 如何从 pandas.DataFrame.describe() 中提取最高值?

[在]

[出去]

这是我尝试过的

df.value_counts().iloc[0,0]

那返回了一个错误。我认为这是因为它返回系列而不是数据框,在这种情况下,我无法提取最高值,只能提取值计数。

然后我尝试搜索 df.describe() 参数,但无法使用那里的任何东西。

甚至愚蠢地尝试了 df.describe().top() 和 df.describe(top) 希望两者都可以。

我觉得我在这里遗漏了一些微不足道的东西。如何在 df.describe() 中提取最高值('volkswagen')?

0 投票
1 回答
32 浏览

python - 如何使用带有分组变量的自定义描述函数来按组获取统计信息?

我试图通过分组变量获取特定变量的描述性统计信息。我希望输出中的百分位值比 describe 函数默认提供的更多。

我尝试了以下代码:

df.groupby('city')['population'].describe([0.01,0.05,0.25,0.50,0.75,0.90,0.95,0.99])

它给出了一个错误: describe() takes 1 positional argument but 2 were given

0 投票
1 回答
1673 浏览

python - 当多个元素具有最高计数时,pandas describe() - top 如何工作?

上下文

我试图了解python (3.7.3) (0.24.2)中top的属性是如何工作的。describe()pandas

迄今为止的努力

  1. 我查看了pandas.DataFrame.describe的文档。它指出:

    如果多个对象值具有最高计数,则将从具有最高计数的那些中任意选择计数和顶部结果。

    我试图了解代码的哪一部分完全归因于“任意”输出。

  2. 我进入了describe依次调用的代码。我的回溯如下:

样品试用

如预期的那样,上面的代码可以给出Down或随机给出。Up

问题

  • 回溯中的哪种方法有助于输出的随机性?
  • 从哈希表获得的键的顺序是原因吗?

    如果是,

    -- 不是每次,相同的键具有相同的哈希值并以相同的顺序获取吗?

    -- 如何对键进行散列、迭代(用于获取所有键)和从散列表中获取?

非常感谢任何指针!提前致谢 :)

0 投票
1 回答
85 浏览

r - 带有嵌入式向量的 Psych 函数 describe() 在 Var 中返回错误

我想使用describe()嵌入在其他向量中的传递向量,以便我可以在for循环中使用该函数。我有以下数据,其中包含一组学生的成绩。我想获得 130 名学生分入的 5 个不同组的描述性统计数据,因此我为每个组创建了一个子集。

现在调用describe()如下完美:

但是,将子集分组到一个向量names中并传递一个namesto的索引是describe()行不通的:

我怎样才能让它工作?