以当前格式转储这些数据几乎是不可能的。您将需要手动将所有案例减少为定义明确的案例集,例如:
- 首席执行官、执行办公室、首席信息官、首席执行官、首席技术官都将进入 C-Star 类别
- 经理、PM、主管将进入经理类别
- 像 Vet 或 Care Giver 之类的一次性服务将归入“其他”类别
此手动配对还将让您深入了解如何为数据处理公司制定更好的问卷或格式,并进一步增加您能够更快地处理以后数据的可能性。
一旦达到这一点,元组字典就足以进行数据分类,您将拥有如下内容:
dict_x = {'C-Star': (('bob', donation_dollars, 'company_y', 'e_mail_addy'),
('jim', donation_dollars_2, 'company_z', 'e_mail_addy')),
'Other': (('sophie', donation_dollars_3, 'company_x', 'e_mail_addy')) }
这可以使用列表推导、lambda 函数、生成器或一些老式的 for 循环来构建。
tl:博士;您将不得不手动对该集合进行分类,几乎不可能在没有格式良好的数据集的情况下以编程方式完成所有边缘情况。如果您没有时间,那里有专门从事此方面的公司,并且能够帮助您将数据格式化为您想要的组,那么您将不得不花费时间或金钱来让自己成一个易于排序的数据集。