hibernate - 更新单行的简单 PL/pgsql 存储过程中的死锁（由 Hibernate 调用）

Question

我写了一个简单的存储过程：

CREATE OR REPLACE FUNCTION "public"."update_table01" (
    int4, -- $1 (population)
    int2 -- $2 (id)
) RETURNS "pg_catalog"."void" AS
$body$
BEGIN
    UPDATE "table01"
    SET
            population = $1
    WHERE id = $2;
END;
$body$
LANGUAGE 'plpgsql'
VOLATILE
CALLED ON NULL INPUT
SECURITY INVOKER
COST 100;

我在我的 Java 服务器 (jre7) 中调用它，并且我使用带有 C3P0 的 Hibernate 4 作为我的连接池。这是在 PostgreSQL 9.2.4 上执行的。我有一个对应于 table01 的 Hibernate 实体（由注释映射），并且我指定此过程用作 SQL 更新：

@SQLUpdate(sql = "{call update_table01(?, ?)}", callable = true)

当我对经常调用它的多个线程（大约 20-30 个）进行负载测试时，发生了一些死锁，这让我很惊讶。以下是日志的相关部分：

2013-08-14 14:51:19 CEST [23495]: [3-1] LOG:  process 23495 detected deadlock while waiting for ShareLock on transaction 140127434 after 1000.048 ms
2013-08-14 14:51:19 CEST [23495]: [4-1] STATEMENT:  update table01 set population=$1 where id=$2
2013-08-14 14:51:19 CEST [23495]: [5-1] ERROR:  deadlock detected
2013-08-14 14:51:19 CEST [23495]: [6-1] DETAIL:  Process 23495 waits for ShareLock on transaction 140127434; blocked by process 23481.
Process 23481 waits for ShareLock on transaction 140127431; blocked by process 23495.
Process 23495: update table01 set population=$1 where id=$2
Process 23481: update table01 set population=$1 where id=$2
2013-08-14 14:51:19 CEST [23495]: [7-1] HINT:  See server log for query details.
2013-08-14 14:51:19 CEST [23495]: [8-1] STATEMENT:  update table01 set population=$1 where id=$2
2013-08-14 14:51:19 CEST [23481]: [3-1] LOG:  process 23481 still waiting for ShareLock on transaction 140127431 after 1000.086 ms
2013-08-14 14:51:19 CEST [23481]: [4-1] STATEMENT:  update table01 set population=$1 where id=$2
2013-08-14 14:51:19 CEST [23481]: [5-1] LOG:  process 23481 acquired ShareLock on transaction 140127431 after 1000.227 ms
2013-08-14 14:51:19 CEST [23481]: [6-1] STATEMENT:  update table01 set population=$1 where id=$2
2013-08-14 14:51:19 CEST [23938]: [3-1] LOG:  process 23938 still waiting for ExclusiveLock on tuple (8,72) of relation 16890 of database 16751 after 1000.119 ms
2013-08-14 14:51:19 CEST [23938]: [4-1] STATEMENT:  update table01 set population=$1 where id=$2
2013-08-14 14:51:19 CEST [23938]: [5-1] LOG:  process 23938 acquired ExclusiveLock on tuple (8,72) of relation 16890 of database 16751 after 1000.174 ms
2013-08-14 14:51:19 CEST [23938]: [6-1] STATEMENT:  update table01 set population=$1 where id=$2
2013-08-14 14:51:19 CEST [23520]: [3-1] LOG:  duration: 970.319 ms  execute <unnamed>: update table01 set population=$1 where id=$2
2013-08-14 14:51:19 CEST [23520]: [4-1] DETAIL:  parameters: $1 = '5731', $2 = '294'
2013-08-14 14:51:19 CEST [23481]: [7-1] LOG:  duration: 1000.361 ms  execute <unnamed>: update table01 set population=$1 where id=$2
2013-08-14 14:51:19 CEST [23481]: [8-1] DETAIL:  parameters: $1 = '1586', $2 = '253'
2013-08-14 14:51:19 CEST [23524]: [3-1] LOG:  duration: 531.909 ms  execute <unnamed>: update table01 set population=$1 where id=$2
2013-08-14 14:51:19 CEST [23524]: [4-1] DETAIL:  parameters: $1 = '1546', $2 = '248'
2013-08-14 14:51:19 CEST [23938]: [7-1] LOG:  duration: 1004.863 ms  execute <unnamed>: update table01 set population=$1 where id=$2

我不擅长解释 Postgres 日志，如果我错了，请纠正我。我认为这表明两个进程最终陷入僵局。两者都在执行相同的语句。

很多事情让我困惑她。最重要的是：当在存储过程中仅获得具有该特定 ID 的行的单个行级锁时，我不明白两个进程（甚至更新不同的行）如何最终陷入死锁？这是更改此表的唯一过程。不应该获得排他锁（执行SELECT ... FOR UPDATE时相同）吗？ShareLocks 是从哪里来的？后面几行 (23938) 中显示的过程是什么？我最好的猜测是 23938 也在等待锁，当 23495 被杀死时，它获得了锁。

然后我尝试了以下方法：

CREATE OR REPLACE FUNCTION "public"."update_table01" (
    int4, -- $1 (population)
    int2 -- $2 (id)
) RETURNS "pg_catalog"."void" AS
$body$
BEGIN
    PERFORM 1 FROM "table01" WHERE id = $2 FOR UPDATE;

    UPDATE "table01"
    SET
            population = $1
    WHERE id = $2;
END;
$body$
LANGUAGE 'plpgsql'
VOLATILE
CALLED ON NULL INPUT
SECURITY INVOKER
COST 100;

当我再次运行它时，我无法重现它。没有更多的僵局。

为什么会这样？

编辑：经过一番调查，似乎 Hibernate 在刷新会话时有时会自行调用此方法。在某些情况下，对于不同的实体，几次都在同一个事务中。这可能会导致死锁，因为每次调用 update_table01() 都会使用 FOR UPDATE 锁锁定特定的 table01 列行。对于一些不正确的调用顺序，它会造成循环等待。在我使这个实体不可更新（即用 update=false 标记所有列）之后，一切都正常工作。现在，我对这种 Hibernate 行为感到非常惊讶，因为 RAM 中的 table01 实体没有附加到任何负责后续事务的会话。然而，Hibernate 将这些实体刷新到数据库，我不知道为什么。

至于锁，我已经确定了我的另外两个存储过程，它们插入/更新到引用 table01 的其他表（其中一个更改了 FK 列）。这些将在 table01 中的相应 FK 行上请求 ShareLock，因此将与 update_table01() 冲突。所以这三个存储过程会互相等待完成。仅此一项无法创建循环等待，但如果在调用这些存储过程之后添加几个 Hibernate 引起的对 update_table01() 的调用，则可能会出现这种情况。

score 1 · Accepted Answer

首先，您看到的排他锁：

ExclusiveLock on tuple (8,72) of relation 16890 of database 16751

这应该是你的“table01” - 试试：

SELECT * FROM pg_class WHERE oid = 16890;

其次，是的，您有进程 23495 和 23481 相互阻塞。PostgreSQL 在等待 1 秒后检测到这一点并取消 23495。然后，在 1000.361 毫秒后，23481 再往下几行。

要对此进行测试，您需要打开两个终端，每个终端都运行 psql。这样你就可以控制每个的暂停。在每个中发出一个 BEGIN 并尝试在两个终端中运行更新。查看pg_locks视图以了解发生了什么。

我的实验都无法重现这一点，我看不出它是如何做到的。

您看到的 ShareLock 可能是在 UPDATE 发生时阻止更改表的那个。您不希望有人删除您尝试更新的列。

自然地，两个共享锁不能冲突，所以肯定有别的东西在起作用。

从您的日志摘录中让我印象深刻的是，您还有许多其他简单的更新，这些更新似乎都存在了很长时间，对于这样一个简单的更新。

死锁检测器可能是错误的 - 您的服务器刚刚处于极端负载下，并且您的两个事务之间没有冲突。如果你的deadlock_timeout设置更长一点，这可能永远不会发生。

hibernate - 更新单行的简单 PL/pgsql 存储过程中的死锁（由 Hibernate 调用）

1 回答 1

Related

Reference