我正在研究机器学习。现在我想用一些著名的数据集来测试我的算法。由于我是这方面的新手,除了MNIST,我找不到其他合适的数据集。我觉得 MNIST 非常适合我们的研究。有谁知道一些与 MNIST 类似的数据集?
PS 我知道另一个经常使用的手写数字数据集,称为 USPS 数据集。但是我需要一个包含更多训练示例的数据集(通常超过 10000 个并且与 MNIST 中的训练示例数量相当),因此 USPS 不在我的选择范围内。
我正在研究机器学习。现在我想用一些著名的数据集来测试我的算法。由于我是这方面的新手,除了MNIST,我找不到其他合适的数据集。我觉得 MNIST 非常适合我们的研究。有谁知道一些与 MNIST 类似的数据集?
PS 我知道另一个经常使用的手写数字数据集,称为 USPS 数据集。但是我需要一个包含更多训练示例的数据集(通常超过 10000 个并且与 MNIST 中的训练示例数量相当),因此 USPS 不在我的选择范围内。
机器学习档案 ( http://archive.ics.uci.edu/ml/ ) 包含相当多的数据集,包括适合分类的数据集,例如 MINIST,例如 ( http://archive.ics.uci.edu/ml ) /数据集/皮肤+分割)。
如果不知道你想用你的算法演示什么,我不能说它们中的哪一个是合适的,但是 UCI 档案中的任何东西都是众所周知的。
你可以试试Fashion MNIST或Kuzushiji MNIST,它们的属性与 MNIST 非常相似,但更难预测。来自时尚 MNIST 的页面:
说真的,我们正在谈论替换 MNIST。这里有一些很好的理由:
- MNIST 太容易了。卷积网络在 MNIST 上可以达到 99.7%。经典的机器学习算法也可以轻松达到 97%。查看我们的 Fashion-MNIST 与 MNIST 的并排基准,并阅读“大多数 MNIST 数字对可以通过一个像素很好地区分。”
- MNIST 被过度使用。在 2017 年 4 月的 Twitter 帖子中,Google Brain 研究科学家和深度学习专家 Ian Goodfellow 呼吁人们远离 MNIST。
- 正如深度学习专家/Keras 作者 François Chollet 在 2017 年 4 月的 Twitter 线程中所指出的,MNIST 不能代表现代 CV 任务。