哪里找数据集

Kaggle

一个为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。

UCI机器学习库

最古老的数据集源之一,是寻找有趣数据集的第一站。虽然数据集是用户贡献的,因此具有不同的清洁度,但绝大多数都是干净的,可以直接从UCI机器学习库下载,无需注册。

VisualData

分好类的计算机视觉数据集

图片

ImageNet

Imagenet数据集有1400多万幅图片,涵盖2万多个类别。与Imagenet数据集对应的有一个享誉全球的”ImageNet国际计算机视觉挑战赛(ILSVRC)”

MS COCO

COCO(Common Objects in Context)是一个新的图像识别、分割和图像语义数据集,它有如下特点:

  • Object segmentation
  • Recognition in Context
  • Multiple objects per image
  • More than 300,000 images
  • More than 2 Million instances
  • 80 object categories
  • 5 captions per image
  • Keypoints on 100,000 people

COCO数据集由微软赞助,其对于图像的标注信息不仅有类别、位置信息,还有对图像的语义文本描述,COCO数据集的开源使得近两三年来图像分割语义理解取得了巨大的进展,也几乎成为了图像语义理解算法性能评价的“标准”数据集。

Labelme

带注释的大型图像数据集。

CamVid

Cambridge-driving Labeled Video Database (CamVid)是第一个具有对象类语义标签的视频集合,其中包含元数据。

Oxford Buildings

The Oxford Buildings Dataset,oxford的VGG组从Flickr搜集了5062张建筑物图像。

YFCC 100M

YFCC 100M (Yahoo Flickr Creative Commons 100M 14G). 由Yahoo Flickr提供的多达1亿张图片的数据集。

ADE20K

由MIT发布,可用于场景感知、解析、分割、多物体识别和语义理解,整个数据集(包含所有的图像和分割在内)的大小为 3.8G。

Pascal VOC 2012

Cityscapes

Amazon数据集

该数据源包含多个不同领域的数据集,如:公共交通、生态资源、卫星图像等。

谷歌数据集搜索引擎

微软数据集