我目前正在尝试编写一个用于测试/学习目的的网站,该网站将围绕被转储的 IMDB 数据集。
我无法确定将数据提取为更易于管理的格式的最佳方法。我需要从几个文件中提取数据:
- movies.list = 所有电影和制作年份的电影列表
- mpaa-ratings-reasons.list = MPAA 评级
- running-times.list = 运行时间
这些表中的数据通过赋予每一行的唯一名称链接。本质上,我需要使用唯一名称将每个文本文件的行连接在一起。完成此操作后,我需要从实际的唯一名称中解析出我需要的数据,因为电影标题没有明确列出。唯一名称还指定条目是视频游戏还是电视节目,我不会为此收集数据。
从那些唯一的名称限定符中提取数据很可能会成为正则表达式的噩梦,但我更关心的是,将文本文件实际分组为可管理格式的最佳方法是什么……我应该……
- 将数据拉入 SQL 服务器上的临时表中,然后在我的应用程序中编写一个单独的部分来连接表并将所有内容拉到一起?
- 将文本文件中的行加载到 .NET 数据表中并以这种方式进行处理?
- 这样做,我是否会给运行这个应用程序的机器带来一场记忆噩梦?
- 其他的选择?
附带说明一下,仅 movies.list 文件就包含超过 100 万行数据。
在此先感谢您的帮助。
克里斯