机器学习公共数据集
文章目录
哪里找数据集
Kaggle
一个为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。
UCI机器学习库
最古老的数据集源之一,是寻找有趣数据集的第一站。虽然数据集是用户贡献的,因此具有不同的清洁度,但绝大多数都是干净的,可以直接从UCI机器学习库下载,无需注册。
VisualData
分好类的计算机视觉数据集
图片
ImageNet
Imagenet数据集有1400多万幅图片,涵盖2万多个类别。与Imagenet数据集对应的有一个享誉全球的”ImageNet国际计算机视觉挑战赛(ILSVRC)”
MS COCO
COCO(Common Objects in Context)是一个新的图像识别、分割和图像语义数据集,它有如下特点:
- Object segmentation
- Recognition in Context
- Multiple objects per image
- More than 300,000 images
- More than 2 Million instances
- 80 object categories
- 5 captions per image
- Keypoints on 100,000 people
COCO数据集由微软赞助,其对于图像的标注信息不仅有类别、位置信息,还有对图像的语义文本描述,COCO数据集的开源使得近两三年来图像分割语义理解取得了巨大的进展,也几乎成为了图像语义理解算法性能评价的“标准”数据集。
Labelme
带注释的大型图像数据集。
CamVid
Cambridge-driving Labeled Video Database (CamVid)是第一个具有对象类语义标签的视频集合,其中包含元数据。
Oxford Buildings
The Oxford Buildings Dataset,oxford的VGG组从Flickr搜集了5062张建筑物图像。
YFCC 100M
YFCC 100M (Yahoo Flickr Creative Commons 100M 14G). 由Yahoo Flickr提供的多达1亿张图片的数据集。
ADE20K
由MIT发布,可用于场景感知、解析、分割、多物体识别和语义理解,整个数据集(包含所有的图像和分割在内)的大小为 3.8G。
Pascal VOC 2012
Cityscapes
Amazon数据集
该数据源包含多个不同领域的数据集,如:公共交通、生态资源、卫星图像等。