第一次在这里发帖,所以我会尽量让自己清楚地了解我需要的帮助。我对 R 相当陌生,这是我第一次真正的独立编程经验。
我有大约 2.5 年的股票报价数据,每天都有自己的文件。这些文件是 .txt,包含大约 20-3000 万行,我猜每个平均 360mb。我现在一次处理一个文件。我不需要这些文件包含的所有数据,我希望我可以使用编程来最小化我的文件。
现在我的问题是我在编写正确的代码时遇到了一些困难,所以 R 理解我需要它做什么。
让我首先向您展示一些数据,以便您了解格式。
M977
R 64266NRE1VEW107 FI0009653869 2EURXHEL 630 1
R 64516SSA0B 80SHB SE0002798108 8SEKXSTO 40 1
R 645730BBREEW750 FR0010734145 8EURXHEL 640 1
R 64655OXS1C 900SWE SE0002800136 8SEKXSTO 40 1
R 64663OXS1P 450SWE SE0002800219 8SEKXSTO 40 1
R 64801SSIEGV LU0362355355 11EURXCSE 160 1
M978
另一个数据片段:
M732
D 3547742
A 3551497B 200000 67110 02800
D 3550806
D 3547743
A 3551498S 250000 69228 09900
如您所见,每一行都以一个字母开头。每个字母表示线条的含义。例如R
表示订单簿目录消息,M
表示上一秒后的毫秒数,H
表示股票交易动作消息。总共使用了 14 种不同的字母。
我已经使用该readLines
函数将数据导入 R。但是,当我想处理数据时,R 似乎需要很长时间才能处理。
现在我想写一些 If 函数来说明如果第一个字母是R
从偏移量 1 到 4 代码表示市场段标识符等,并让 R 向这些添加列,这样我就可以在更多的情况下处理数据结构时尚。
导入此类数据以及创建某种形式的结构的最佳方式是什么 - 例如,使用数据行中的唯一 ID 信息一次分析 1 只股票。