我继承了一个遗留应用程序,它使用自引用表来促进分层结构。这会导致递归方法调用产生“难闻的气味”。
parent_id 列引用了同一张表的主键,这里大概有2500万条记录:
+-------------+---------+------+-----+---------+----------------+
| Field | Type | Null | Key | Default | Extra |
+-------------+---------+------+-----+---------+----------------+
| phase_id | int(10) | NO | PRI | NULL | auto_increment |
| plat_id | int(10) | YES | MUL | NULL | |
| name | text | YES | | NULL | |
| parent_id | int(10) | YES | MUL | NULL | |
| plan_id | int(10) | YES | MUL | NULL | |
+-------------+---------+------+-----+---------+----------------+
mysql> show table status like 'ref'\G
*************************** 1. row ***************************
Name: phase
Engine: MyISAM
Version: 10
Row_format: Dynamic
Rows: 25223658
Avg_row_length: 20
Data_length: 509450960
Max_data_length: 281474976710655
Index_length: 1026267136
Data_free: 0
Auto_increment: 25238013
我对这种结构有几个问题:
- 实施自引用表通常是不好的做法吗?我能想到的主要负面因素是很难/不可能在单个查询中获得层次结构的最大深度,因为可能有 X 个子级。
- 值得重新设计吗?拥有如此多的数据使得移动它变得更加困难。
- 我有哪些选择?我听说过一些关于表分区的知识,但不知道它是否适合我的场景。
任何指针都将不胜感激