postgresql - Postgresql：处理文本，检测不按字母顺序排列的行

Question

我有一些（大部分）按字母顺序处理的文本，例如这些是每个段落的第一个单词：

所以上面的每个单词都代表一个段落的开头，例如：

阿德兰托是加利福尼亚州圣贝纳迪诺县的一座城市，位于维克多维尔西北约 9 英里（14 公里）处，位于大洛杉矶地区内陆帝国的高沙漠部分...

每个条目的文本可以有很多段落，因此不按字母顺序排列的段落被视为新条目。

所以每个条目都对应一个地方。

在示例中，O(ld) 在 A(lbany) 之后，所以Old Albany是一个条目，但 N(ew) 在 O(ld) 之前，所以 New Albany是的延续Old Albany。

我的问题是：除了在 Postgresql中使用Albany和Old Albany/的第一个字母之间的 ASCII 字符差异之外，是否已经存在一些东西？New Albany例如 ASCII ('A') - ASCII ('O') 给出 -14。

那么我是否只在第一个字符上使用 ASCII 值？还是有更通用的解决方案？

score 0 · Accepted Answer

目前我正在使用文本的第一个字母之间的 ASCII 差异，与和相比previousRow.description，nextRow.description例如

ABS (ASCII (substring ( currentRow.description, 1,1 ) )  - 
ASCII ( substring ( previousRow.description, 1 ,1 ) )

1 回答 1