我正在 Python 中实现一个交叉表库作为我的新工作的编程练习,并且我已经实现了一个可行但不优雅和冗余的要求的实现。我想要一个更好的模型,它允许在基本模型之间进行良好、干净的数据移动,以表格数据形式存储在平面文件中,以及所有可能被询问的统计分析结果。
现在,我有一个进展,从表中每一行的一组元组,到计算感兴趣元组出现频率的直方图,再到一个序列化器——有点笨拙——将输出编译成一个集合用于显示的表格单元格。然而,我最终不得不比我想要的更频繁地回到表格或直方图,因为没有足够的信息到位。
那么,有什么想法吗?
编辑:这是一些数据的示例,以及我希望能够从中构建的内容。注意 ”。” 表示一点“缺失”的数据,它只是有条件地计算。
1 . 1
1 0 3
1 0 3
1 2 3
2 . 1
2 0 .
2 2 2
2 2 4
2 2 .
如果我正在查看上面第 0 列和第 2 列之间的相关性,这就是我拥有的表格:
. 1 2 3 4
1 0 1 0 3 0
2 2 1 1 0 1
此外,我希望能够计算频率/总、频率/小计等的比率。