1

我目前正在尝试编写一个用于测试/学习目的的网站,该网站将围绕被转储的 IMDB 数据集

我无法确定将数据提取为更易于管理的格式的最佳方法。我需要从几个文件中提取数据:

  • movies.list = 所有电影和制作年份的电影列表
  • mpaa-ratings-reasons.list = MPAA 评级
  • running-times.list = 运行时间

这些表中的数据通过赋予每一行的唯一名称链接。本质上,我需要使用唯一名称将每个文本文件的行连接在一起。完成此操作后,我需要从实际的唯一名称中解析出我需要的数据,因为电影标题没有明确列出。唯一名称还指定条目是视频游戏还是电视节目,我不会为此收集数据。

从那些唯一的名称限定符中提取数据很可能会成为正则表达式的噩梦,但我更关心的是,将文本文件实际分组为可管理格式的最佳方法是什么……我应该……

  1. 将数据拉入 SQL 服务器上的临时表中,然后在我的应用程序中编写一个单独的部分来连接表并将所有内容拉到一起?
  2. 将文本文件中的行加载到 .NET 数据表中并以这种方式进行处理?
    1. 这样做,我是否会给运行这个应用程序的机器带来一场记忆噩梦?
  3. 其他的选择?

附带说明一下,仅 movies.list 文件就包含超过 100 万行数据。

在此先感谢您的帮助。

克里斯

4

1 回答 1

1

在数据库服务器上暂存表,将数据清理到最终表中。

如果这意味着加载回客户端应用程序进行处理,那就这样吧。

实际上,数据库服务器将处理大量数据,但 SQL Server 可能不是您处理的最佳选择。

于 2009-02-14T17:09:13.963 回答