0

我正在寻找一些可能的软件选项,这些选项将允许自定义规则来操作批量数据文件(.csv)例如,正确的大写(允许各州保持大写和唯一的姓氏),识别特定单词的字数一个字段,以及一些其他自定义规则。任何指导将不胜感激。

4

2 回答 2

0

一个快速的谷歌“数据清理实用程序”出现了这个:

http://data-scrubbing.qarchive.org/

它们看起来非常接近您正在寻找的东西。

这实际上取决于规则的复杂程度。比简单的东西复杂得多,而且您可能只需编写一些代码(或对其进行编码)就可以领先。

于 2011-06-22T19:32:31.003 回答
0

您可以使用 Talend Open Studio 来完成此任务。它是用于数据操作和集成的开源 ETL 工具。例如,您可以 ImportCSV >> DATABASE >> 执行转换 >> ExportCSV。可能性是无止境。

你可以在这里找到它:http ://www.talend.com/products-data-integration/talend-open-studio.php

听起来您可能正在寻找创建数据的配置文件。为此,您可以使用 Talend Open Profiler,他们最近添加了对 .csv 等平面文件的支持。它使用简单,您应该在 30 分钟内启动并运行。

您可以在此处找到下载:http ://www.talend.com/products-data-quality/talend-open-profiler.php

你可以在这里找到一些教程:http://www.talendforge.org/tutorials/menu.php

在教程中选择 Data Quality 选项卡,然后向下滚动到“Talend Open Profiler”

这是我评估新数据集数据质量的第一步。

于 2011-06-22T19:36:41.503 回答