早上好。我已经从官网下载了 Yahoo Flickr Creative Commons 100M (14G) Dataset。当我提取它时,我得到了一个 48 GB 的文件,没有扩展名。我还有一个 .txt 文件,它解释了数据集是如何组成的,它说它是由大量记录组成的:对于任何图像都注册了一些信息,例如下载链接、照片/视频标识符、照片/视频哈希,用户昵称、拍摄日期等字段。现在,我只需要图像和相关的哈希,所以问题是:我如何得到它?我完全不知道。谢谢大家的帮助
块引用
编辑:我已经设法用 Word 打开文件,但不是全部,因为它太大了,我有超过 10000 条这样的记录,例如:
0 6985418911 4E2F7A26A1DFBF165A7E30BDABF7E72A 39089491@N00 NINO63004 2012-02-16 09:56:56:37.0 1331840483 key+west+florida,powershot -81.804885 24.550558 12(链接到我无法发布的 flickr)(其他链接) Attribution-NonCommercial-NoDerivs License(其他链接)7205 8 df7747990d 692d7e0a7f jpg 0
块引用