假设我有一个具有以下数据格式的 csv 文件:
ID, Name, Gender, Q1
1, ABC, Male, "A1;A2"
2, ACB, Male, "A2;A3;A4"
3, BAC, Female, "A1"
我想将其转换为以下格式,以便我的数据虚拟化工具可以正确处理它:
ID, Name, Gender, Questions, Responses
1, ABC, Male, Q1, A1
1, ABC, Male, Q1, A2
2, ACB, Male, Q1, A2
2, ACB, Male, Q1, A3
2, ACB, Male, Q1, A4
3, BAC, Female, Q1, A1
使用Text to Columns
LibreOffice 中的功能,我可以轻松地将 Q1 列A1;A2
分成不同的列,例如A1, A2
,但我被困在转置和重复行上。
附加信息:
数据是通过谷歌表单收集的,不幸的是谷歌电子表格使用分号分隔符将多项选择问题响应存储在一个单元格中
A1;A2;A3...
,而我的可视化工具无法看到这个底层数据结构,只能将它们视为单个字符串,使得聚合/分组变得困难。在实际数据(调查结果)中,我有大约 5000 个条目,每个条目都有多个需要此类处理的单元格,这将产生一个包含大约 100,000 个条目的表。需要一种自动化转换的方法。
我用来分析/可视化数据的工具是“ Tableau Public ”,他们有一个用于 Excel 的数据重塑器插件,可以半自动化此类任务(请参阅确保每行仅包含一个数据部分),但没有 LibreOffice 替代品。