1

我正在尝试将一个大(1.5G)文件加载到熊猫中,但遇到了一些非常奇怪的问题。当我加载文件时,一列似乎具有混合数据类型 - 一些“str”和一些“float”。例如

session.visitor_gwp[2] '185511.545011'

session.visitor_gwp[8540709] 1349514214092.844

Series 本身的 dtype 是 dtype('O')。文件中列的内容是数字和字母数字数据的混合。所以我希望所有元素都是'str'类型。

这仅发生在某些特定的列组合中(仅提取 unix 中的相关列会生成工作文件),并且似乎取决于文件中行的顺序!

该文件有 14 列和 10M 行。

这是我正在使用的命令: sessions=pandas.read_csv('bigfile.txt', delimiter='\t')

我尝试将comment 和quotechar 设置为文件中未出现的字符,例如'~'。这没有帮助。

我可以通过明确指定 dtype 来解决这个问题,但自动类型检测的行为似乎很奇怪,因为我认为(可能是错误的)Series 对象应该表示单一类型的元素。

谢谢,马丁

熊猫。版本= '0.10.1' numpy。版本='1.7.0'

4

0 回答 0