我有一个包含以下类型数据的数据集:
company_id, company_name, country
1, a Tech, germany
2, a Tech AG, germany
3, a Tech gmbh, germany
4, AF, germany
5, AF gmbh, vermany
我已经根据将 ID 分配给完全匹配的初步搜索将 company_id 分配给这些公司。现在,我想做以下事情:
1) 编写一个正则表达式,判断一个公司名称是否与其下面的公司名称完全相同,只是第二个公司名称的末尾有后缀“gmbh”。
除了正确使用正则表达式背后的逻辑之外,我已经完成了所有工作。例如:
for next_row in reader:
first_name = first_row['company_name']
next_name = next_row['company_name']
if first_name == next_name:##FIX ME
#do stuff
writer.writerow(first_row)
first_row = next_row
相等性测试的逻辑不应该是如果 first_name == next_name-- 而是如果 first_name 等于 last_name 加上 gmbh...
非常感谢任何澄清!