1

我是大数据验证和处理的新手。对datacompy知之甚少,我用它来比较两个数据集(熊猫)。但是我找不到任何可以进行数据验证的来源,即使用 python 对电子邮件、非电子邮件、null、货币和日期/时间格式进行列验证

例如,需要对以下样本数据进行验证:

Address
-------
AAA AAA AAA
BBBB B bbbb
CCC CCCCCCC
abc@dbv.com
dews@fggv.uk
ASAA asas dasd

我得到的数据集包含“地址”列下的电子邮件地址,需要验证“地址”列中是否存在电子邮件。'Emil' 列需要验证,反之亦然。

此外,我更喜欢在结果中返回无效行(类似于 datcompy compare.report,它输出整行不匹配的行)。

我已经用 scala 尝试了 Deequ,如果发现验证错误,验证成功状态。但是,很难找出包含无效数据的确切行。

感谢有人可以为此目的指导我参考,课程或任何其他工具,语言。首选 python 或 Deequ/scala 上的解决方案。

4

1 回答 1

0

熊猫给了我如下解决方案

data = pd.read_csv("data.csv", sep='\t')
x = data[data['Email'].str.match(r'(^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$)')]
于 2020-06-03T06:10:13.333 回答