我正在寻找一些可能的软件选项,这些选项将允许自定义规则来操作批量数据文件(.csv)例如,正确的大写(允许各州保持大写和唯一的姓氏),识别特定单词的字数一个字段,以及一些其他自定义规则。任何指导将不胜感激。
2 回答
一个快速的谷歌“数据清理实用程序”出现了这个:
http://data-scrubbing.qarchive.org/
它们看起来非常接近您正在寻找的东西。
这实际上取决于规则的复杂程度。比简单的东西复杂得多,而且您可能只需编写一些代码(或对其进行编码)就可以领先。
您可以使用 Talend Open Studio 来完成此任务。它是用于数据操作和集成的开源 ETL 工具。例如,您可以 ImportCSV >> DATABASE >> 执行转换 >> ExportCSV。可能性是无止境。
你可以在这里找到它:http ://www.talend.com/products-data-integration/talend-open-studio.php
听起来您可能正在寻找创建数据的配置文件。为此,您可以使用 Talend Open Profiler,他们最近添加了对 .csv 等平面文件的支持。它使用简单,您应该在 30 分钟内启动并运行。
您可以在此处找到下载:http ://www.talend.com/products-data-quality/talend-open-profiler.php
你可以在这里找到一些教程:http://www.talendforge.org/tutorials/menu.php
在教程中选择 Data Quality 选项卡,然后向下滚动到“Talend Open Profiler”
这是我评估新数据集数据质量的第一步。