0

是否有一个 SQL/Regex 或一些高级函数,我们可以为大约 200 万行的列提取人名?像NLTK这样的东西

下面是我的样本。在下面我想只提取人名(即)过滤公司**。像这些我有 200 万与真实的公司和人名混合

KAREN STRAUSS
KASEY NEMELKA
KATHLEEN MCMAHON
KATHRYN HOCKADAY
KATHRYN HOLAHAN
KATIE NELSON
**KATHERINE KACENA CONSULTING**
KATHY ATKINS
KATRINA GRANT
KATY DYER
KATY G TACKES
**KAUFFMAN S TRANSPORT LLC**
KATHERINE MAGPANTAY
KATHERINE VENTURA
KATHRYN RUANO
JORGE DANIEL MUSCIA
JOSE MANUEL ROSALES SANTEROS
JOSE MANUEL VILAS CARR
JOSEPH H WILNER
4

1 回答 1

0

评论太长了。人名变化多端。毕竟是“约翰迪尔”一家公司的名字。或者是一个人的名字?或两者?

您可以为您的数据构建特殊用途的逻辑。开发需要时间,但像这样:

regexp(lower(name), '\s(consult|llc)')
于 2021-02-04T14:03:02.290 回答