我目前正在处理一个包含葡萄牙行政区和邮政编码信息的 CSV,但该文件不遵循任何严格的格式,这意味着有时整个字符串都是大写的,以及其他问题。
我要解决的问题如下:某些地区的名称末尾有一个缩写,与它的父母的行政级别有关,我想删除它。据我所知,这是规则:
- 缩写的长度不超过 3 个字符(到目前为止总是 3 个字符);
- 第一个字符可以是任何字母,不区分大小写;
- 最后 2 个字符始终是辅音(例如 Z、B、M、P、..);
- (编辑)缩写总是作为字符串中的最后一个单词出现;
(编辑 2) - 字符串总是UTF-8
目的是从区域名称中删除此缩写。