美国人口普查局使用一种称为“soundex”的特殊编码来定位有关个人的信息。soundex 是一种基于姓氏发音方式而不是拼写方式的姓氏(姓氏)编码。听起来相同但拼写不同的姓氏,如 SMITH 和 SMYTH,具有相同的代码并一起归档。soundex 编码系统的开发是为了让您可以找到一个姓氏,即使它可能是用各种拼写记录的。
在本实验中,您将设计、编码和记录一个程序,该程序在输入姓氏时会生成 soundex 代码。系统将提示用户输入姓氏,程序应输出相应的代码。
基本 Soundex 编码规则
姓氏的每个 soundex 编码都由一个字母和三个数字组成。使用的字母始终是姓氏的第一个字母。根据下面显示的 soundex 指南,将数字分配给姓氏的其余字母。如有必要,在末尾添加零以始终生成四字符代码。忽略其他字母。
Soundex 编码指南
Soundex 为各种辅音分配一个编号。发音相似的辅音被分配相同的数字:
数字辅音
1 B、F、P、V 2 C、G、J、K、Q、S、X、Z 3 D、T 4 L 5 M、N 6 R
Soundex 忽略字母 A、E、I、O、U、H、W 和 Y。
遵循 3 个额外的 Soundex 编码规则。一个好的程序设计会将这些实现为一个或多个单独的功能。
规则 1. 双字母的名字
如果姓氏有任何双字母,则应将其视为一个字母。例如:
- Gutierrez 的编码是 G362(G,3 代表 T,6 代表第一个 R,第二个 R 被忽略,2 代表 Z)。
规则 2. 具有相同 Soundex 代码编号的并排字母名称
如果姓氏在 soundex 编码指南中并排有不同的字母且具有相同的数字,则应将它们视为一个字母。例子:
Pfister 编码为 P236(P,F 被忽略,因为它被认为与 P 相同,S 为 2,T 为 3,R 为 6)。
Jackson 编码为 J250(J,C 为 2,K 与 C 相同忽略,S 与 C 相同忽略,N 为 5,添加 0)。
规则 3. 辅音分隔符
3.a. 如果元音 (A, E, I, O, U) 分隔两个具有相同 soundex 代码的辅音,则元音右侧的辅音被编码。例子:
- Tymczak 编码为 T-522(T,5 代表 M,2 代表 C,Z 被忽略(参见上面的“并排”规则),2 代表 K)。由于元音“A”将 Z 和 K 分开,因此 K 被编码。
3.b。如果 "H" 或 "W" 分隔两个具有相同 soundex 代码的辅音,则右侧的辅音不被编码。例子:
*Ashcraft 编码为 A261(A,S 为 2,C 被忽略,因为与 S 相同,中间有 H,R 为 6,F 为 1)。它没有编码 A226。
到目前为止,这是我的代码:
surname = raw_input("Please enter surname:")
outstring = ""
outstring = outstring + surname[0]
for i in range (1, len(surname)):
nextletter = surname[i]
if nextletter in ['B','F','P','V']:
outstring = outstring + '1'
elif nextletter in ['C','G','J','K','Q','S','X','Z']:
outstring = outstring + '2'
elif nextletter in ['D','T']:
outstring = outstring + '3'
elif nextletter in ['L']:
outstring = outstring + '4'
elif nextletter in ['M','N']:
outstring = outstring + '5'
elif nextletter in ['R']:
outstring = outstring + '6'
print outstring
该代码足以满足其要求,我只是不确定如何编写这三个规则。那就是我需要帮助的地方。因此,任何帮助表示赞赏。