0

我目前正在处理一个包含葡萄牙行政区和邮政编码信息的 CSV,但该文件不遵循任何严格的格式,这意味着有时整个字符串都是大写的,以及其他问题。

我要解决的问题如下:某些地区的名称末尾有一个缩写,与它的父母的行政级别有关,我想删除它。据我所知,这是规则:

  1. 缩写的长度不超过 3 个字符(到目前为止总是 3 个字符);
  2. 第一个字符可以是任何字母,不区分大小写;
  3. 最后 2 个字符始终是辅音(例如 Z、B、M、P、..);
  4. (编辑)缩写总是作为字符串中的最后一个单词出现;

(编辑 2) - 字符串总是UTF-8

目的是从区域名称中删除此缩写。

4

1 回答 1

0

听起来很简单。。

/\b[a-z][ZBMP]{2}\b/i

将匹配任何此类描述的缩写,将字母添加到第二个字符类 ( [ZBMP]) 以完成匹配。

只有当它不是另一个词的一部分时它才会匹配(这是\b' 的工作)。

于 2012-11-19T20:37:26.433 回答