我从维基百科获取了两个关于一个国家的数据集,将它们粘贴到 LibreOffice calc 中并将它们保存为 .csv 文件。例如:
第一个 .csv 文件:
"Algeria", 76
"Angola", 100
...
"United Arab Emirates", 27
第二个 .csv 文件:
"Algeria", .67
"Argentina", .45
...
"Zimbabwe", .57
我想过滤两个 .csv 文件中具有数据点的国家/地区的列表(假设没有重复或替代拼写),匹配两个数据点(例如,阿尔及利亚的 76、.67)并输出一些基本的散点图,以获得快速的视觉想法他们的关系。
我尝试了很多不同的方法来解析文件,其中一些几乎可以工作,但由于对 awk、grep、bash 管道、gnuplot 等了解不够,我一直被绊倒。
我确信在 Python 或 Perl 或类似的语言中会更容易/更好地完成,我最终在 LibreOffice Calc 中使用了“查找”功能,但开始我想知道如何在 bash 中完成它。理想情况下,数据收集将通过解析 html 实现自动化,但有时您会在 pdf 表格等中获得这些数据集。
任何类型的指针都表示赞赏。谢谢。