我正在使用一个相当大的数据集,其中包含约 3700 万个数据点,这些数据点按层次索引为国家、产品代码、年份三类。country 变量(即国家名称)是相当杂乱的数据,由以下项目组成:“Austral”,代表“Australia”。我已经构建了一个简单的guess_country(),它将字母与单词匹配,并从已知的country_names 列表中返回最佳猜测和置信区间。鉴于数据的长度和层次结构的性质,将 .map() 用于 Series: country 的效率非常低。[guess_country 函数需要 ~2ms / 请求]
我的问题是:是否有更有效的 .map() 采用系列并仅对唯一值执行映射?(鉴于有很多重复的国名)