问题标签 [table-statistics]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
26 浏览

sql - 从 SQL 中的同一张表中获取人口变化

问题是:截至 2019 年 12 月 31 日和 2020 年 1 月 31 日,按地区划分的不同工人类型的总数。还提供增长百分比(总和每个工人类型)

这是我尝试过的:

这给出了奇怪的 % 值的输出(高于 100 和低于 0)。想知道我在逻辑上做错了什么。

样本数据:

希望这可以帮助!

0 投票
0 回答
118 浏览

r - R中带有ggplot2的自定义置信带?

我想定义自己的置信区间,而不是ggplot2自动为我计算它们。我已经放了一些可重现的代码来输出下面的图表。在我给出的示例中,我如何定义自己的置信区间上限和下限?

在此处输入图像描述

0 投票
1 回答
104 浏览

sql - 扩展统计在 PostgreSQL 中是否有任何权衡?

扩展统计帮助计划者评估查询复杂性,以便选择正确的算法来处理查询。在表中的几个相关列上创建新的统计信息可能会在数据库中的某处创建一些复杂的结构,因为它们必须通过 ANALYZ(E)ing 表来刷新。有一张pg_statistics_ext_data我什至无法查看的表格,因为我的主(也是唯一的)帐户没有选择权限。

我要问的是,它们是否对这些统计数据进行了权衡?它们会占用磁盘上的大量数据吗?我能以某种方式找出多少钱吗?

为什么不管我手动创建它们不是每次都使用它们?

0 投票
0 回答
243 浏览

python - 我在哪里可以找到 Redshift 中的列统计信息?

考虑到配置单元表/数据块的示例:

如果我需要列级统计信息,我要做的是:

同样,我已经看到 Redshift 中没有调用命令DESCRIBE

现在我期待在 Redshift 中使用相同的解决方法。

我期望的输出是什么:

统计如下:

  1. 最大限度
  2. 平均长度
  3. 最长长度
  4. 清楚的
  5. 无效的

我需要查看哪些内部表?此外,如果我需要加入多个内部表以获取上述统计信息。

0 投票
2 回答
405 浏览

r - 为什么我的 table_summary 在 r 中看起来很奇怪

总初学者和非常希望有人可以帮助我(:编写以下代码来创建按城市分组的统计汇总表,但我的表格看起来很奇怪(而不是看起来像表格,它显示了表格间隔)。我应该怎么做做?

表格的样子:

0 投票
1 回答
714 浏览

database - 为 hive 中的某些列获取“无统计信息”意味着什么?

我在日志文件中得到以下信息,但不知道这意味着什么:

询问:

有人可以帮忙或指导我去哪里看吗?

没有答案的相关问题:Hive No Stats for 'database'@'table', Columns

0 投票
1 回答
48 浏览

oracle - 在包内多次运行收集表统计信息会导致性能问题

我们有一个总是遇到性能问题的大包。我们在一个月内平均收到 6 到 10 份针对此问题的票。有时程序会成功运行几分钟,有时它会运行几天只是因为出现无法解释的错误而出错。

我开始对此进行深入研究,发现性能问题的可能原因有很多,例如大量未调整的 SQL 和糟糕的编码习惯等。

今天让我印象深刻的一件事是在代码中,它在执行一些大操作(例如巨大的 Select 语句和许多 DML 语句)之前在多个地方多次调用 Gather Table Statistics。

该计划每天、每周和每月运行一次,具体取决于组织的实践。

不幸的是,我无法复制性能问题以了解更多信息,但我猜测多次将 Gather Table 统计信息运行到多个表,可能会导致程序出现重大性能问题。我找不到任何资源来支持这个想法。有人可以确认吗?

0 投票
1 回答
93 浏览

sql - Netezza:使用 SQL / force 生成完整的统​​计信息

有没有办法强制 netezza 使用 SQL 在表上生成完整的统​​计信息。我知道可以通过命令行来完成,但这需要在启动此命令的机器上安装 nzsql 客户端。根据此处提到的详细信息 - https://www.ibm.com/support/pages/understanding-generate-statistics-statement可能会强制 NZ 假设目标表(我们要在其上运行完整统计) 是小/中的(设置 sample_stats_min_Rows = 1000000;),以便它使用“GENERATE STATISTICS ON”命令生成完整的统​​计信息。但是,似乎 sample_stats_min_rows 不再是一个有效的选项,因为它给出了一个错误 ERROR [HY000] ERROR: 'SAMPLE_STATS_MIN_ROWS' is not a valid option name. 我们已经看到了性能上的巨大差异,完整的统计数据与快速统计数据以及因此的请求相比存在巨大差异。我们拥有的版本是 Release 7.2.1.10-P1

0 投票
0 回答
196 浏览

sql - 如何在 Redshift 中刷新表统计信息?

我需要在 Redshift 上运行一个程序,该程序将检查每天插入表中的行数。为此,我正在使用svv_table_infowhich contains a column tbl_rows。此列包含有关表中记录总数的信息。对于我的程序,我只需使用tbl_rows. 但是,对于某些表统计信息没有正确刷新,因为stats_off上述 svv 表中的列不完全为零。
现在,我有一个表info_schema_table,其中包含我想每天检查的表的信息。我想在我的程序中做的是,对于我的每个表info_schema_table,我想在程序开始时刷新统计信息。我尝试使用analyze table_nameRedshift 中的命令,但它不会将该tbl_rows列更新为最新值。我是 Redshift 新手,不知道如何刷新统计信息。请帮帮我。
这篇文章中给出了我的程序的完整细节: Remove loop in Redshift
此外,表中的表info_schema_table仅用于插入,因此它们的大小每天都在增加。

0 投票
1 回答
44 浏览

vertica - 垂直表分析

我想分析 Verica 上的表使用情况以检查以下内容

  1. 最受打击的表是查询
  2. 获得更多写入查询的表
  3. 获得更多读取查询的表。

所以我正在寻求 SQL 查询的帮助,或者如果有人有任何文件,请指出我正确的方向。谢谢你。