我有一个 TSV 文件,它由整数和一些错误数据组成,这些数据可能是浮点数或字符等。
这个想法是读取文件的内容并找出哪些是坏的(包含整数以外的数据)
一旦打开文件进行读取,就可以使用 readline 方法读取每一行。当然,readline() 方法将读取的每一行作为字符串返回,而不是它的组成数据类型。我的理解是,我可以pickle
以某种方式使用该模块,通过将其表示为执行转储和加载方法的序列化版本来确保我保留原始数据类型。
问题是,我该怎么做?
通过读取每一行并对其进行腌制,这无济于事,因为 readline 默认情况下将其读取为字符串。因此,在酸洗时,它实际上只是将一个字符串酸洗成一个序列化的 python 对象表示,而 unpickling 只会将它作为一个字符串返回。因此,行中的实际数据(例如整数或字符)被表示为字符串,而不管。
所以我假设问题是,我如何以正确的方式腌制事物,或者如何处理文件的每一行以确保其数据类型得到维护?