6

无论出于何种原因,我有很多客户拥有存储在电子表格中的现有数据。每个电子表格中通常有数百甚至数千个项目,并且要求客户通过网站手动输入它们(或者天堂禁止我自己以这种方式导入它们)是不可能的。通常,此数据不会简单地将电子表格列映射到数据库列。那太简单了。通常,数据需要在进入数据库之前进行操作(数据需要用逗号分隔等),或者数据需要分布在多个表中。或两者。

我问这个问题,不是因为我不知道有多种方法可以做到这一点,而是因为我还没有找到一种不会觉得需要做更多工作的方法。到目前为止,我已经采用了以下所有方法(可能还有更多我已经忘记的方法):

  • 使用Excel修改数据,所以导入更容易一些
  • 将整个电子表格导入到临时表中,然后使用 SQL 导入
  • 编写脚本并使用它导入数据(我使用过 VBScript、C# 和现在的 Ruby)

到目前为止,使用脚本似乎是最灵活的方式,但仍然感觉有点笨拙。我必须完成这项任务,以至于我什至考虑为它编写一个小 DSL,只是为了加快速度。

但在我这样做之前,我很好奇,有没有更好的方法?

4

4 回答 4

2

是的..那只是糟透了。

我会选择剧本。而且我假设您有重复的列必须匹配另一个表中的单行。我会进行合理的匹配,如果您遇到脚本无法处理的行并移动数据......然后记录它并让某人手动执行。

于 2008-12-24T05:05:07.020 回答
2

当然,这些小细节会让你丧命,但总的来说,我已经成功地将数据从 Excel 导出为 CSV,然后使用 rool 或脚本读取它,根据需要对其进行修改,然后插入它. 根据我的环境的美妙程度,这可以通过脚本语言的数据库接口来完成,包括将 SQL INSERT 语句写入脚本文件。

PythonRubyPerl都有很好的 CSV 包。

于 2008-12-24T05:06:08.843 回答
2

如果可以的话,你必须设定界限。您应该尝试提供一个模板供他们使用预期数据,其中包括文件类型(Excel、csv 等)、列名、有效值等。您应该允许用户浏览文件并上传在您的页面/表格上。

文件上传后,您需要进行验证和导入。您可以使用 ADO.NET、文件流、DTS/SSIS 或 Office 自动化来执行此操作(如果您使用的是 Microsoft 堆栈)。在验证部分,您应该准确地告诉用户他们做错了什么或需要更改。这可能包括让验证页面在数据网格中包含实际数据,并在确切的行/列上提供带有错误的红色标签。如果你使用 Office 自动化,你可以给他们准确的手机号码,但 Office PIA 是一件让人头疼的事情。

接受验证后,您可以随意导入信息。我更喜欢将它放入临时表并使用存储的过程来加载它,但这只是我。有些人更喜欢使用对象模型,但如果您有大量数据,这可能会非常慢。

如果您亲自手动加载这些文件并且必须进入并操作它们,我建议您找到它们之间的共同点并提出一个可以遵循的标准。一旦你有了它,你就可以做到,这样用户就可以自己做,或者你可以自己做的更快。

是的,这需要做很多工作,但从长远来看,当有一个程序在 95% 的情况下都有效时,每个人都会获胜。

如果这将是一种无法自动化的情况,那么您可能只需要一个 vanilla staging 表并使用 sql 来导入。您必须将数据加载到一个暂存表中,进行基本操作,然后将其加载到 SQL 期望的测试暂存表中。

我做了这么多导入和 ETL 工具,确实没有简单的方法来处理它。唯一的方法是真正提出一个合理的标准,并坚持下去并围绕它进行规划。

于 2008-12-24T05:57:35.637 回答
0

DSL是要走的路。

为您的问题创建域模型。您谈论单元格、列、行、数据库表、拆分字段、组合字段、从单元格到数据库列的映射,这就是您需要的概念。此外,您可能需要范围(单元格)和工作表。

简单视图仅查看电子表格中的值,而不查看基础公式。将电子表格导出为制表符分隔的文本可让您访问它。如果您需要访问公式,最好使用 xml 表示形式,XML 电子表格或 Office XML 格式。

您也许可以在 Excel 中提出 DSL。这可以让您更聪明的用户进行(部分)映射。

于 2008-12-24T09:44:23.930 回答