33

我想计算数字行中的中值。我怎样才能在 SQLite 4 中做到这一点?

4

5 回答 5

39

假设中位数是有序列表中间的元素。

SQLite(4 或 3)没有任何内置函数,但可以手动完成:

SELECT x
FROM MyTable
ORDER BY x
LIMIT 1
OFFSET (SELECT COUNT(*)
        FROM MyTable) / 2

当记录数为偶数时,通常将中位数定义为中间两条记录的平均值。在这种情况下,平均值可以这样计算:

SELECT AVG(x)
FROM (SELECT x
      FROM MyTable
      ORDER BY x
      LIMIT 2
      OFFSET (SELECT (COUNT(*) - 1) / 2
              FROM MyTable))

结合奇数和偶数情况,结果如下:

SELECT AVG(x)
FROM (SELECT x
      FROM MyTable
      ORDER BY x
      LIMIT 2 - (SELECT COUNT(*) FROM MyTable) % 2    -- odd 1, even 2
      OFFSET (SELECT (COUNT(*) - 1) / 2
              FROM MyTable))
于 2013-04-02T14:01:18.147 回答
15

sqlite3 有一个包含各种数学函数的扩展包。它包括像中位数这样的组函数。

这将比 CL 的答案做更多的工作,但如果你认为你需要任何其他功能,这可能是值得的。

http://www.sqlite.org/contrib/download/extension-functions.c?get=25

这里是如何编译和加载 SQLite 扩展的指南。)

从描述:

使用可加载扩展机制为 SQL 查询提供数学和字符串扩展函数。数学:acos,asin,atan,atn2,atan2,acosh,asinh,atanh,差异,度,弧度,cos,sin,tan,cot,cosh,sinh,tanh,coth,exp,log,log10,power,sign, sqrt,正方形,天花板,地板,圆周率。字符串:replicate、charindex、leftstr、rightstr、ltrim、rtrim、trim、replace、reverse、proper、padl、padr、padc、strfilter。聚合:stdev、方差、众数、中位数、lower_quartile、upper_quartile。

更新 2015-04-12:修复“未定义符号:sinh”

正如评论中提到的,尽管编译成功,但此扩展可能无法正常工作。

例如,编译可能会起作用,在 Linux 上,您可以将生成的 .so 文件复制到/usr/local/lib. 但是.load /usr/local/lib/libsqlitefunctionssqlite3shell 可能会产生这个错误:

Error: /usr/local/lib/libsqlitefunctions.so: undefined symbol: sinh

以这种方式编译它似乎有效:

gcc -fPIC -shared extension-functions.c -o libsqlitefunctions.so -lm

并且将.so文件复制到/usr/local/lib没有显示类似的错误:

sqlite> .load /usr/local/lib/libsqlitefunctions

sqlite> select cos(pi()/4.0);
---> 0.707106781186548

我不确定为什么 gcc 的选项顺序在这种特殊情况下很重要,但显然它确实如此。

注意到这一点的功劳归功于 Ludvick Lidicky这篇博文的评论

于 2013-05-22T02:42:06.197 回答
1

有一个带有时间戳、标签和延迟的日志表。我们希望看到每个标签的延迟中值,按时间戳分组。将所有延迟值格式化为带有前导零的 15 个字符长度,将其连接起来,然后将定位值削减一半。有中位数。

select L, --V, 
       case when C % 2 = 0 then
       ( substr( V, ( C - 1 ) * 15 + 1, 15) * 1 + substr( V, C * 15 + 1, 15) * 1 ) / 2
       else
        substr( V, C * 15 + 1, 15) * 1
       end as MEDST
from (
    select L, group_concat(ST, "") as V, count(ST) / 2 as C
    from (
        select label as L, 
               substr( timeStamp, 1, 8) * 1 as T, 
               printf( '%015d',latency) as ST
        from log
        where label not like '%-%' and responseMessage = 'OK'
        order by L, T, ST ) as XX
    group by L
    ) as YY
于 2018-11-29T08:45:26.710 回答
0

Dixtroy 通过 group_concat() 提供了最佳解决方案。这是一个完整的示例:

DROP TABLE [t];
CREATE TABLE [t] (name, value INT);
INSERT INTO t VALUES ('A', 2);
INSERT INTO t VALUES ('A', 3);
INSERT INTO t VALUES ('B', 4);
INSERT INTO t VALUES ('B', 5);
INSERT INTO t VALUES ('B', 6);
INSERT INTO t VALUES ('C', 7);

结果到这个表中:

name|value
A|2
A|3
B|4
B|5
B|6
C|7

现在我们使用来自 Dextroy 的(稍作修改的)查询:

SELECT name, --string_list, count, middle,
    CASE WHEN count%2=0 THEN
        0.5 * substr(string_list, middle-10, 10) + 0.5 * substr(string_list, middle, 10)
    ELSE
        1.0 * substr(string_list, middle, 10)
    END AS median
FROM (
    SELECT name, 
        group_concat(value_string,"") AS string_list,
        count() AS count, 
        1 + 10*(count()/2) AS middle
    FROM (
        SELECT name, 
            printf( '%010d',value) AS value_string
        FROM [t]
        ORDER BY name,value_string
    )
    GROUP BY name
);

...并得到这个结果:

name|median
A|2.5
B|5.0
C|7.0
于 2019-09-04T09:42:54.647 回答
-1

SELECT AVG(x) 仅返回格式为 YYYY-MM-DD 的日期值的年份,因此我稍微调整了 CL 的解决方案以适应日期:

SELECT DATE(JULIANDAY(MIN(MyDate)) + (JULIANDAY(MAX(MyDate)) - JULIANDAY(MIN(MyDate)))/2) as Median_Date
FROM (
   SELECT MyDate
      FROM MyTable
      ORDER BY MyDate
      LIMIT 2 - ((SELECT COUNT(*) FROM MyTable) % 2) -- odd 1, even 2
      OFFSET (SELECT (COUNT(*) - 1) / 2 FROM MyTable)
);
于 2015-03-17T05:43:51.857 回答