1

任何指向描述 Internet 上提供的 JPEG 文件的“文件大小”属性分布的图表的链接?

我有兴趣知道 JPEG 文件是否存在长尾和“平均”大小。

4

1 回答 1

1

在寻找此类数据的现有示例时,我将遵从其他人的意见,但我可以分享我将如何计算此分布。

在不直接了解 Internet 上的图像大小分布的情况下,一种方法是从随机中抽取值并分析结果。这通常在统计和机器学习中完成,一种方法是马尔可夫链蒙特卡罗。这在数学上与 Google 如何计算其 pagerank 算法有关。

根据您希望结果的准确程度,最好的方法是在 Internet 上进行随机游走并收集有关您遇到的图像文件大小的统计信息。值得注意的是,您不必存储每个值 - 有增量方式来存储此类统计数据,以便在采样远远超过内存容量的值后了解分布情况 - 例如,Commons Math 实现

然而,实现这样一个精确的随机游走可能很困难。也许一种近似的方法是去谷歌图像搜索,根据流行搜索词的分布输入随机搜索词,并为每个结果中的前几百张图像采样图像大小。这将很容易抓取(因为你必须做的工作少得多)和带宽效率(谷歌给你图像大小,所以你不必下载图像并自己检查它们。)我认为它会是相当准确地描述图像大小的分布。

最后,为了实现这一点,我建议使用像mechanize这样的东西来极大地自动化这个过程。

于 2013-01-30T01:02:03.687 回答