我正在构建一个数据可视化,我想使用 CSV 作为我的基本数据格式,以实现轻巧和易用。我的源数据采用大量 XML 格式,因此我使用 Python 和 lxml 将其转换为 CSV。
我的问题是这个。当我在 XML 中有多个子标签<City>
时,如下所示:
<Country>
<Name>France</Name>
<Cities>
<City><Name>Paris</Name></City>
<City><Name>Lyon</Name></City>
</Cities>
</Country>
<Country>
<Name>Germany</Name>
<Cities>
<City><Name>Berlin</Name></City>
<City><Name>Munich</Name></City>
<City><Name>Aachen</Name></City>
</Cities>
</Country>
我应该如何在我的 CSV 文件中表示它们?我可以想到两个选择。首先是为每个城市添加一列,直到 CityN:
Country,City1,City2,City3
France,Paris,Lyon,,
Germany,Berlin,Munich,Aachen
第二种是对所有城市使用一个数组:
Country,Cities
France,[Paris,Lyon]
Germany,[Berlin,Munich,Aachen]
最好的格式可能只是取决于我想如何查询数据,但我想我会在这里检查一下是否有一个完善的或更好的方法来做到这一点。