我正在尝试分析每月的维基媒体浏览量统计数据。他们的每日转储还可以,但像 2021 年 6 月这样的月度报告(https://dumps.wikimedia.org/other/pageview_complete/monthly/2021/2021-06/pageviews-202106-user.bz2)似乎坏了:
[radim@sandbox2 pageviews]$ bzip2 -t pageviews-202106-user.bz2
bzip2: pageviews-202106-user.bz2: bad magic number (file not created by bzip2)
You can use the `bzip2recover' program to attempt to recover
data from undamaged sections of corrupted files.
[radim@sandbox2 pageviews]$ file pageviews-202106-user.bz2
pageviews-202106-user.bz2: Par archive data
知道如何提取数据吗?这里使用什么编码?可以是他们 Hive 分析集群中的 Parquet 文件吗?