我有一些(大部分)按字母顺序处理的文本,例如这些是每个段落的第一个单词:
- 阿德兰托
- 阿古拉山
- 阿拉米达
- 奥尔巴尼
- 老奥尔巴尼
- 新奥尔巴尼
- 阿罕布拉
- 阿利索维耶霍
- 阿尔图拉斯
所以上面的每个单词都代表一个段落的开头,例如:
阿德兰托是加利福尼亚州圣贝纳迪诺县的一座城市,位于维克多维尔西北约 9 英里(14 公里)处,位于大洛杉矶地区内陆帝国的高沙漠部分...
每个条目的文本可以有很多段落,因此不按字母顺序排列的段落被视为新条目。
所以每个条目都对应一个地方。
在示例中,O(ld) 在 A(lbany) 之后,所以Old Albany
是一个条目,但 N(ew) 在 O(ld) 之前,所以 New Albany
是 的延续Old Albany
。
我的问题是:除了在 Postgresql中使用Albany
和Old Albany
/的第一个字母之间的 ASCII 字符差异之外,是否已经存在一些东西?New Albany
例如 ASCII ('A') - ASCII ('O') 给出 -14。
那么我是否只在第一个字符上使用 ASCII 值?还是有更通用的解决方案?