python - 可以对这个 soundex 编码使用一些帮助

Question

美国人口普查局使用一种称为“soundex”的特殊编码来定位有关个人的信息。soundex 是一种基于姓氏发音方式而不是拼写方式的姓氏（姓氏）编码。听起来相同但拼写不同的姓氏，如 SMITH 和 SMYTH，具有相同的代码并一起归档。soundex 编码系统的开发是为了让您可以找到一个姓氏，即使它可能是用各种拼写记录的。

在本实验中，您将设计、编码和记录一个程序，该程序在输入姓氏时会生成 soundex 代码。系统将提示用户输入姓氏，程序应输出相应的代码。

基本 Soundex 编码规则

姓氏的每个 soundex 编码都由一个字母和三个数字组成。使用的字母始终是姓氏的第一个字母。根据下面显示的 soundex 指南，将数字分配给姓氏的其余字母。如有必要，在末尾添加零以始终生成四字符代码。忽略其他字母。

Soundex 编码指南

Soundex 为各种辅音分配一个编号。发音相似的辅音被分配相同的数字：

数字辅音

1 B、F、P、V 2 C、G、J、K、Q、S、X、Z 3 D、T 4 L 5 M、N 6 R

Soundex 忽略字母 A、E、I、O、U、H、W 和 Y。

遵循 3 个额外的 Soundex 编码规则。一个好的程序设计会将这些实现为一个或多个单独的功能。

规则 1. 双字母的名字

如果姓氏有任何双字母，则应将其视为一个字母。例如：

Gutierrez 的编码是 G362（G，3 代表 T，6 代表第一个 R，第二个 R 被忽略，2 代表 Z）。

规则 2. 具有相同 Soundex 代码编号的并排字母名称

如果姓氏在 soundex 编码指南中并排有不同的字母且具有相同的数字，则应将它们视为一个字母。例子：

Pfister 编码为 P236（P，F 被忽略，因为它被认为与 P 相同，S 为 2，T 为 3，R 为 6）。
Jackson 编码为 J250（J，C 为 2，K 与 C 相同忽略，S 与 C 相同忽略，N 为 5，添加 0）。

规则 3. 辅音分隔符

3.a. 如果元音 (A, E, I, O, U) 分隔两个具有相同 soundex 代码的辅音，则元音右侧的辅音被编码。例子：

Tymczak 编码为 T-522（T，5 代表 M，2 代表 C，Z 被忽略（参见上面的“并排”规则），2 代表 K）。由于元音“A”将 Z 和 K 分开，因此 K 被编码。

3.b。如果 "H" 或 "W" 分隔两个具有相同 soundex 代码的辅音，则右侧的辅音不被编码。例子：

*Ashcraft 编码为 A261（A，S 为 2，C 被忽略，因为与 S 相同，中间有 H，R 为 6，F 为 1）。它没有编码 A226。

到目前为止，这是我的代码：

surname = raw_input("Please enter surname:")
outstring = ""

outstring = outstring + surname[0]
for i in range (1, len(surname)):
    nextletter = surname[i]
    if nextletter in ['B','F','P','V']:
        outstring = outstring + '1'

    elif nextletter in ['C','G','J','K','Q','S','X','Z']:
        outstring = outstring + '2'

    elif nextletter in ['D','T']:
        outstring = outstring + '3'

    elif nextletter in ['L']:
        outstring = outstring + '4'

    elif nextletter in ['M','N']:
        outstring = outstring + '5'

    elif nextletter in ['R']:
        outstring = outstring + '6'

print outstring

该代码足以满足其要求，我只是不确定如何编写这三个规则。那就是我需要帮助的地方。因此，任何帮助表示赞赏。

score 0 · Accepted Answer

一些提示：

通过使用数组来存储每个 Soundex 代码，并按其对应的字母的 ASCII 值（或其派生的较短数值范围内的值）对其进行索引，您将同时使代码更高效且更具可读性。这是一种非常常见的技术：理解、使用和重用 ;-)
在解析输入字符串时，您需要跟踪（或比较）先前处理的字母以忽略重复字母，并处理其他规则。（如文章中所暗示的，在单独的函数中实现这些中的每一个）。这个想法可能是引入一个函数来负责 -也许- 为正在处理的输入的当前字母添加 soundex 代码。该函数将依次调用每个“规则”函数，可能会根据某些规则的返回值提前退出。换句话说，替换系统...

    outstring = outstring + c # btw 可能是 +=
...和
    outstring += AppendCodeIfNeeded(c)

请注意，这种多功能结构对于这种琐碎的逻辑来说太过分了，但是为了实践而这样做也不错。

score 0 · Accepted Answer

以下是关于一般 Python 内容的一些小提示。

0）您可以使用for循环来循环任何序列，并且字符串计为一个序列。所以你可以写：

for nextletter in surname[1:]:
    # do stuff

这比计算索引和索引姓氏更容易编写和理解。

1）您可以使用+=运算符附加字符串。代替

x = x + 'a'

你可以写

x += 'a'

至于您的具体问题的帮助，您将需要跟踪前一封信。如果您的作业有一条规则说“一行中的两个 'z' 字符应编码为 99”，您可以添加如下代码：

def rule_two_z(prevletter, curletter):
    if prevletter.lower() == 'z' and curletter.lower() == 'z':
        return 99
    else:
        return -1


prevletter = surname[0]
for curletter in surname[1:]:
    code = rule_two_z(prevletter, curletter)
    if code < 0:
        # do something else here
    outstring += str(code)
    prevletter = curletter

嗯，您正在编写代码以返回字符串整数，例如'3'，而我编写代码以返回实际整数，然后str()在将其添加到字符串之前调用它。无论哪种方式可能都很好。

祝你好运！

python - 可以对这个 soundex 编码使用一些帮助

2 回答 2

Related

Reference