.net - 将每晚的 IMDB 转储组织到结构化数据中

Question

我目前正在尝试编写一个用于测试/学习目的的网站，该网站将围绕被转储的 IMDB 数据集。

我无法确定将数据提取为更易于管理的格式的最佳方法。我需要从几个文件中提取数据：

这些表中的数据通过赋予每一行的唯一名称链接。本质上，我需要使用唯一名称将每个文本文件的行连接在一起。完成此操作后，我需要从实际的唯一名称中解析出我需要的数据，因为电影标题没有明确列出。唯一名称还指定条目是视频游戏还是电视节目，我不会为此收集数据。

从那些唯一的名称限定符中提取数据很可能会成为正则表达式的噩梦，但我更关心的是，将文本文件实际分组为可管理格式的最佳方法是什么……我应该……

附带说明一下，仅 movies.list 文件就包含超过 100 万行数据。

在此先感谢您的帮助。

克里斯

score 1 · Accepted Answer

在数据库服务器上暂存表，将数据清理到最终表中。

如果这意味着加载回客户端应用程序进行处理，那就这样吧。

实际上，数据库服务器将处理大量数据，但 SQL Server 可能不是您处理的最佳选择。

1 回答 1