我最近提出了一种用于查找重复客户记录的索引算法。简而言之,这一切都很好。
但是,我的问题是我想找到“Diviér”应该匹配“Divier”,或者“Aether”应该匹配“Æther”。没问题,因为使用 libicu 或 boost::locale 可以删除变音符号,并且问题使用 wstring。但是,这是我的问题:规范化/拉丁化一个单词会改变它的含义,匹配可能不再有意义。我想就名称是否可以接受一些输入...
另外,如果有人有中文名字怎么办?这不会以这种方式归一化,不是吗?
你对如何解决这个问题有什么建议吗?