有谁知道我可以如何删除以下数据中的重复行,其中重复行是那些具有相同名称的行?问题是我想在重复条目中保留不同的电话号码、电子邮件等。
此数据是一个制表符分隔的文本文件。
谢谢!
name phone email website
Diane Grant Albrecht M.S.
Lannister G. Cersei M.A.T., CEP 111-222-3333 cersei@got.com www.got.com
Argle D. Bargle Ed.M.
Sam D. Man Ed.M. 000-000-1111 dman123@gmail.com www.daManWithThePlan.com
Sam D. Man Ed.M.
Sam D. Man Ed.M. 111-222-333 dman123@gmail.com www.daManWithThePlan.com
D G Bamf M.S.
Amy Tramy Lamy Ph.D.
理想输出:
name phone email website
Diane Grant Albrecht M.S.
Lannister G. Cersei M.A.T., CEP 111-222-3333 cersei@got.com www.got.com
Argle D. Bargle Ed.M.
Sam D. Man Ed.M. 000-000-1111, 111-222-333 dman123@gmail.com www.daManWithThePlan.com
D G Bamf M.S.
Amy Tramy Lamy Ph.D.
跟进:
对此的想法:
from collections import defaultdict
import csv
import re
input = open('ieca_first_col_fake_text.txt', 'rU')
for row in input:
row.split('\t')
print row
# default to empty set for phone, email, website, area, degrees
extracted_data = defaultdict(lambda: [set(), set(), set()])
data_set = {}
for entry in input:
for index, value in enumerate(entry):
if index == 0:
data_set = extracted_data[name]
elif value:
data_set[index - 1].add(value)
print data_set
数据集为空('{}')