1

我有一个 csv 文件,它有近 10000000 行,结构如下:

date , code , ret
2001-01-01,000001,0.1
2001-01-01,000002,0.01
2001-01-02,000001,0.05
2001-01-02,000002,0.02

“日期”和“代码”字段只是一个键。我想快速子集文件,像这样

subset(code='000001')

date , code , ret
2001-01-01,000001,0.1
2001-01-02,000001,0.05

或者

subset(date='2001-01-01')

date , code , ret
2001-01-01,000001,0.1
2001-01-01,000002,0.01

应该如何选择正确的数据结构以使其高效工作?

4

1 回答 1

1

看看 F# Data 项目中的 CSVTypeProvider:
https ://fsharp.github.io/FSharp.Data/library/CsvProvider.html

正如@MarcinJuraszek 所描述的,您可以将其用作基本数据结构,以便轻松地将数据解析为更优化的数据结构以便快速访问。

于 2014-10-24T16:00:19.503 回答