15

幼儿园 101 教导我们中的一些人:“你名字中的字母应该小写,首字母大写。” 然而在这个后文学时代,人们如何在网络表单中输入他们的名字似乎取决于他们的心情,或者太阳耀斑或诸如此类:全大写,全小写,混合,颠倒......

从哲学上讲,我随便说!占用你的名字,谁在乎。但我有强迫症客户,他们更喜欢看到数据标准化、标准化、可预测。所以我问你们,如果你见过任何经过深思熟虑的 PHP 函数来解决大小写问题,这些函数考虑到了各种可能ucwords()会完全破坏的异常,例如:

  • 斯文-亚历克斯·克朗佩
  • 罗纳尔多麦克唐纳
  • Boopsie O'Brien
  • JR鲍勃·多布斯
  • 弗朗西斯卡德洛斯加托斯
  • 李永成

有什么功能可以尝试容纳这些字母表叛逆者吗?

更新
从 Robin v. G. 的观点来看,不可能有任何脚本来统治他们。但我已经确定完全以小写或大写形式输入的名称可能适合进行良好的擦洗。所以对于这些,我会做...

    if ($name == strtoupper($name) || $name == strtolower($name)) {
        $name = ucwords(strtolower($name));
    }

修改它以修复一些可能的异常很容易:破折号、撇号、“McD”等。会犯错误,但谁会抱怨?不是用小写字母输入名字的温顺混蛋。

哦,等等,我的名字是小写的……

4

4 回答 4

8

这简直是​​不可能的。

正如您在问题中显示的那样,名称的拼写因国家/地区而异。最简单的方法是找到最常见的拼写方式,即将每个“单词”的每个首字母大写,即每个字符串前面都有空格、连字符、点或撇号。

这并不能解决您的所有问题(YungCheng,McDonaldo),并且还会给您留下其他问题,但这与您将得到的一样接近。

比较:

  • Alex Van Halen(美国拼写)
  • Alex van Halen(正确的荷兰语拼写)

没有算法可以解决这个问题。

这篇文章很好地说明了荷兰名字的问题,而这只是一种语言。世界上每种语言可能都有这样的文章。;)

于 2012-10-17T06:35:46.447 回答
6

这是一个尝试

$names=array();
$names[]="sven-alex crumpet";
$names[]="RONALDO McDonalDO";
$names[]="Boopsie o'Brien";
$names[]="j.r. BOB DOBBS";
$names[]="francesca DE LOS gatOS";
$names[]="yungcheng LI";
$names[]="mr hankey";
$names[]="santas little helper";
$names[]="j.r.r. tolkien";

$splitters=array(' ','.',"'",'-'); //more to come
$fixedNames=array();

foreach($names as $name) {
    $fixed='';
    $blank=str_replace($splitters,'?',$name);
    $n=explode('?',$blank);
    foreach($n as $f) $fixed.=ucfirst(strtolower($f)).' ';
    for ($i=0;$i<strlen($fixed);$i++) {
        if ($fixed[$i]==' ') {
            if ($blank[$i]=='?') {
                $fixed[$i]=$name[$i];
            }
        }
    }
    $fixedNames[]=substr_replace($fixed,'', -1);
}

echo '<pre>';
print_r($fixedNames);
echo '<pre>';

输出

Array
(
    [0] => Sven-Alex Crumpet
    [1] => Ronaldo Mcdonaldo
    [2] => Boopsie O'Brien
    [3] => J.R. Bob Dobbs
    [4] => Francesca De Los Gatos
    [5] => Yungcheng Li
    [6] => Mr Hankey
    [7] => Santas Little Helper
    [8] => J.R.R. Tolkien
)

如果没有考虑区域/文化习俗的算法和庞大的名称数据库进行比较,就不可能“纠正”像永成这样的名称。

于 2012-10-17T07:17:59.303 回答
1

虽然这是一个相当老的问题,但是:

function titleCase($string, $delimiters = array(" ", "-", ".", "'", "O'", "Mc", "Mac"), $exceptions = array("and", "to", "of", "das", "dos", "de", "do", "da", "los", "von", "van", "I", "II", "III", "IV", "V", "VI", "VII", "VIII", "IX", "X")) {
    /*
     * Exceptions in lower case are words you don't want converted
     * Exceptions all in upper case are any words you don't want converted to title case
     *   but should be converted to upper case, e.g.:
     *   king henry viii or king henry Viii should be King Henry VIII
     */
    $string = mb_convert_case($string, MB_CASE_TITLE, "UTF-8");
    foreach ($delimiters as $dlnr => $delimiter) {
        $words = explode($delimiter, $string);
        $newwords = array();
        foreach ($words as $wordnr => $word) {
            if (in_array(mb_strtoupper($word, "UTF-8"), $exceptions)) {
                // check exceptions list for any words that should be in upper case
                $word = mb_strtoupper($word, "UTF-8");
            } else if (in_array(mb_strtolower($word, "UTF-8"), $exceptions)) {
                // check exceptions list for any words that should be in lower case
                $word = mb_strtolower($word, "UTF-8");
            } else if (!in_array($word, $exceptions)) {
                // convert to uppercase (non-utf8 only)
                $word = ucfirst($word);
            }
            array_push($newwords, $word);
        }
        $string = join($delimiter, $newwords);
    } //foreach
    return $string;
}

它不适用于永成,但它几乎适用于其他任何东西。唯一的问题是,如果$string只有像“do Carmo”这样的姓氏,那么它将返回“Do Carmo”。它真的是为全名而构建的,所以如果你$string = "frederick do carmo";它会返回“Frederick do Carmo”。希望这会有所帮助。

于 2020-05-08T13:07:20.627 回答
-1

我找到了一个不错的库来处理用 python 编写的不同格式的各种人名,称为nameparser。它仍然不能处理上面列出的所有名称,但是通过一些配置,您可能能够接近。

我还写了一篇简短的博客,描述了如何让名称解析器库从终端运行。也许它会帮助某人。

这是基本的python脚本:

import sys
import json
from nameparser import HumanName

rawname = ' '.join(sys.argv[1:]).lower().strip()

name = HumanName(rawname)

# attempt to fix name title case
name.capitalize()

print json.dumps({
    'fullname': name.__str__(),
    'title': name.title,
    'first': name.first,
    'middle': name.middle,
    'last': name.last,
    'suffix': name.suffix,
    'nickname': name.nickname
})
于 2014-11-30T02:52:57.253 回答