我有一个包含 2 列的大型保险索赔数据集。一列是声明标识符。另一个是与索赔相关的一大串笔记。
我的目标是通过文本挖掘特定 VIN 号码的索赔说明。通常,VIN# 采用 17 位格式。见下文:https ://www.autocheck.com/vehiclehistory/autocheck/en/vinbasics
但是,根据我的数据,出现了一些问题。有时仅输入最后 6 位数字作为 VIN#。我基本上需要一种方法来处理我的数据并抓取任何看起来像 17 位 VIN 号码的东西并将其返回到该行数据。我正在使用 Python 3,并且是一名新手文本挖掘器,但有一些使用正则表达式的基本经验。
我正在尝试在 python 中创建一个函数,我可以在其中 lambda 将其应用于注释列。
到目前为止的尝试:
C_Notes['VIN#s'] = C_Notes['ClaimsNotes'].str.findall(r'[0-9]{1}[0-9a-zA-Z]{16}')
我试图在我提供的链接中模仿 VIN 的格式。
所以寻找具有以下品质的字符串的东西:
编辑:更改的代码片段。如果我用虚构的文本制作了一些 VIN 的玩具示例,但我没有成功遍历我的 pandas 列,则此代码示例有效。每个行条目都有一大段文本我希望函数一次遍历每一行。
谢谢你。