问题标签 [describe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pandas Dataframe groupby 描述 8x ~ 比单独计算慢
以下代码使用两种不同的方法总结了数值数据。
第一种方法使用 Dataframe().describe() 并传递一些特定的额外百分位数。
第二种方法分别计算汇总统计信息(均值、标准差、N),将其堆叠,计算相同的分位数,然后将两者附加并按索引排序,因此结果与第一种方法基本相同。
有一些小的命名差异,我们可以清理后记,因为汇总的数据很小,所以速度非常快。
事实证明,在这个例子中使用 describe 函数大约慢了 8 倍。
我正在寻找原因以及可能会加快速度的任何其他方法的建议(过滤器、组、值)都从 UI 传递到龙卷风服务 - 所以速度很重要,因为用户正在等待结果,并且数据可以比这个例子更大。
我的电脑上的时间是:
使用描述:每个循环 873 毫秒 ± 8.9 毫秒(平均值 ± 标准偏差。7 次运行,每个循环 1 个)
使用两步法:每个循环 105 ms ± 490 µs(平均值 ± 标准偏差。7 次运行,每次 10 个循环)
欢迎所有输入!
node.js - Mocha selenium web 测试中的嵌套 forEach 失败
我正在编写一个应该执行以下操作的测试脚本(这是一个示例,但逻辑和结构是相同的)。
- 对于 arr1 中的每个项目,调用函数 arr_func_1。
- 在 arr_func_1 中,记录当前项目,然后为 arr2 中的每个项目调用函数 arr_func_2。
- 在 arr_func_2 中,记录当前项目。
调用包含在 its() 中,因为如果数组中的一个元素失败,那么它需要优雅地失败并继续处理数组中的下一个元素。
对此的预期结果应该是:
1 10 20 30 2 10 20 30 3 10 20 30
相反,我收到 1 2 3
这让我相信初始函数是异步调用的。
python - 确保在第二次调用 .describe() 时正确排除了对象类型变量
我在datacamp中执行一个主题如下:
探索您的数据 现在,您将使用 Python pandas 模块执行一些数据探索。要了解数据,您将输出平均值、中位数、计数和百分位数等统计数据。DataFrame recent_grads 仍在您的工作区中
标题希望的目标如下:
我的代码如下
但是,出现的错误信息如下
确保在第二次调用 .describe() 时正确排除了对象类型变量
请问链接哪一部分错了,麻烦求助,谢谢!
amazon-web-services - 按时间创建日期使用 boto3 列出 AMI?
我正在使用 boto3 API 来描述来自 AWS 的图像。我的列表 AMI 具有相同的名称,AWS 会自动在该名称上生成后缀。我想知道在创建时间顺序列表中是否有 describe_image 的选项。目前我必须以编程方式对该返回字典进行排序。
任何帮助,将不胜感激。
pandas - 如何从 pandas.DataFrame.describe() 中提取最高值?
[在]
[出去]
这是我尝试过的
df.value_counts().iloc[0,0]
那返回了一个错误。我认为这是因为它返回系列而不是数据框,在这种情况下,我无法提取最高值,只能提取值计数。
然后我尝试搜索 df.describe() 参数,但无法使用那里的任何东西。
甚至愚蠢地尝试了 df.describe().top() 和 df.describe(top) 希望两者都可以。
我觉得我在这里遗漏了一些微不足道的东西。如何在 df.describe() 中提取最高值('volkswagen')?
python - 如何使用带有分组变量的自定义描述函数来按组获取统计信息?
我试图通过分组变量获取特定变量的描述性统计信息。我希望输出中的百分位值比 describe 函数默认提供的更多。
我尝试了以下代码:
df.groupby('city')['population'].describe([0.01,0.05,0.25,0.50,0.75,0.90,0.95,0.99])
它给出了一个错误:
describe() takes 1 positional argument but 2 were given
python - 当多个元素具有最高计数时,pandas describe() - top 如何工作?
上下文:
我试图了解python (3.7.3) (0.24.2)中top
的属性是如何工作的。describe()
pandas
迄今为止的努力:
我查看了pandas.DataFrame.describe的文档。它指出:
如果多个对象值具有最高计数,则将从具有最高计数的那些中任意选择计数和顶部结果。
我试图了解代码的哪一部分完全归因于“任意”输出。
我进入了
describe
依次调用的代码。我的回溯如下:
样品试用:
如预期的那样,上面的代码可以给出Down
或随机给出。Up
问题:
- 回溯中的哪种方法有助于输出的随机性?
从哈希表获得的键的顺序是原因吗?
如果是,
-- 不是每次,相同的键具有相同的哈希值并以相同的顺序获取吗?
-- 如何对键进行散列、迭代(用于获取所有键)和从散列表中获取?
非常感谢任何指针!提前致谢 :)
r - 带有嵌入式向量的 Psych 函数 describe() 在 Var 中返回错误
我想使用describe()
嵌入在其他向量中的传递向量,以便我可以在for
循环中使用该函数。我有以下数据,其中包含一组学生的成绩。我想获得 130 名学生分入的 5 个不同组的描述性统计数据,因此我为每个组创建了一个子集。
现在调用describe()
如下完美:
但是,将子集分组到一个向量names
中并传递一个names
to的索引是describe()
行不通的:
我怎样才能让它工作?