我想使用 .ftr 文件快速分析数百个表。不幸的是,我在小数点和千位分隔符方面遇到了一些问题,类似于那篇文章,只是 read_feather 不允许decimal=',', thousands='.'
选项。我尝试了以下方法:
df['numberofx'] = (
df['numberofx']
.apply(lambda x: x.str.replace(".","", regex=True)
.str.replace(",",".", regex=True))
导致
AttributeError: 'str' object has no attribute 'str'
当我将其更改为
df['numberofx'] = (
df['numberofx']
.apply(lambda x: x.replace(".","").replace(",","."))
我在结果中收到了一些奇怪的(四舍五入)错误,例如 22359999999999998 而不是 2236 用于某些高于 1k 的数字。1k以下都是真实结果的10倍,这可能是因为删除了“。” 浮点数并创建该数字的整数。
试
df['numberofx'] = df['numberofx'].str.replace('.', '', regex=True)
也会导致结果中出现一些奇怪的行为,因为一些数字在 10^12 中,而另一些则保持在 10^3 中。
以下是我从多个 Excel 文件创建 .ftr 文件的方法。我知道我可以简单地从 Excel 文件创建 DataFrame,但这会大大降低我的日常计算速度。
我该如何解决这个问题?
编辑:问题似乎来自于以 df 格式读取 excel 文件,其中关于十进制和千位分隔符的非美国标准,而不是将其保存为羽毛。使用pd.read_excel(f, encoding='utf-8', decimal=',', thousands='.')
读取 excel 文件的选项解决了我的问题。这就引出了下一个问题:
为什么在羽毛文件中保存浮点数会导致奇怪的舍入错误,例如将 2.236 更改为 2.2359999999999998?