我有一个数据集,我在 pandas 中分析,其中所有数据都是每月分箱的。数据源自 MySQL 数据库,其中所有日期的格式为“YYYY-MM-01”,例如,2013 年 10 月的所有行在月份列中都将包含“2013-10-01”。
我目前正在将数据读入 pandas(通过 MySQL 表的 .tsv 转储)
data = pd.read_table(filename,header=None,names=('uid','iid','artist','tag','date'),index_col=indexes, parse_dates='date')
这一切都很好,除了我进行每月重新采样的任何后续分析总是使用月末约定表示日期(即 10 月的数据变为 '2013-10-31' 而不是 '2013- 10-01'),但这可能会导致不一致,原始数据的月份标记为“YYYY-MM-01”,而任何重新采样的数据的月份标记为“YYYY-MM-31”(或“-30 ' 或 '-28',视情况而定)。
我的问题是:从一开始就可以将数据框中的所有日期转换为月末格式的最简单和/或最快的方法是什么?请记住,日期是多索引中的几个索引之一,而不是列。我认为我最好的选择是在我的 pd.read_table 调用中使用修改后的 date_parser,它总是将月份转换为月末约定,但我不确定如何处理它。