这不是我的领域,所以如果这不在此堆栈的范围内,我深表歉意。
我正在清理(用于个人娱乐并进行可视化以与他人分享)调查数据(下载,9MB),这些数据在向公众发布之前经过了一些操作以匿名。
其中一个问题是关于每小时付款率和允许自由形式的文本回答。其中一些答案的字符严重损坏,下图显示了两种最常见的情况:
我不想放弃这些答案,但我不知道如何将它们恢复到有意义的状态。
要求更好的数据转储——向相关人员询问,但不要抱太大希望。
尝试确定哪些字符以这种方式结束。处理编码总是很麻烦,而且这些看起来不像我以前见过的任何损坏的字符,所以我不知道从哪里开始以及是否有可用的工具来帮助解决这个问题。这甚至可能根本不是有效的字符或货币符号。
尝试将损坏的字符与有效的货币字符匹配。我强烈怀疑两者中的一个可能是€字符,另一个可能是£,因为该调查倾向于英语国家。但是,我能否通过相对于其他答案的字符数量可靠地支持这种猜测?不幸的是,没有提供地理数据,所以我无法匹配国家/地区的答案。