视觉数据 - AINav.net

视觉数据

MedMNIST v2

医学图像数据集。MedMNIST v2 是一个大规模的 2D 和 3D 医学图像分类数据集，包含 12 个 2D 数据集和 6 个 3D 数据集，其中 2D 数据集有 708069 张图片，3D 数据集有 10214 张图片。数据集包含多种模态（X 光片、视网膜 OCT、超声、CT 等）、多种任务（多分类、二分类、多标签、有序回归），数据集规模从百量级到十万量级不等；

医疗数据视觉数据

第一视角视频数据集。Facebook和NUS、MIT等高校联合推出3000小时的第一视角视频数据集Ego4D

视觉数据

超大图片集合。谷歌发布的图片数据库Open Images，包含了900万标注数据，标签种类超过6000种。谷歌在官方博客中写到，这比只拥有1000个分类的ImageNet 更加贴近实际生活。对于想要从零开始训练计算机视觉模型的人来说，这些数据远远足够了。

视觉数据

目标分割数据。DAVIS(Densely-Annotated VIdeo Segmentation)数据集是视频目标分割(VOS)任务中最重要的数据集之一。

目标分割数据视觉数据

自动驾驶数据。是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据，每张图像中最多达15辆车和30个行人，还有各种程度的遮挡与截断。

自动驾驶数据视觉数据

城市街道场景。是关于城市街道场景的语义理解图片数据集。它主要包含来自50个不同城市的街道场景，拥有5000张在城市环境中驾驶场景的高质量像素级注释图像。此外，它还有20000张粗糙标注的图像。

视觉数据语义分割项目

Fruit-Images-Dataset

水果蔬菜数据。包含90483张图，131个种类，100像素。

小型数据视觉数据

最大自动驾驶数据集。包括了1000万张无标注图片以及2万张带标注图片。SODA10M数据集收集了不同城市在不同天气条件、时间段以及位置的场景。晴天雨天、白天夜晚、城市高速园区…… 更重要的是，覆盖面很广。 1000万张无标注图片来自32个城市，囊括了国内大部分地区。

自动驾驶数据视觉数据

LFW

人脸识别。包含了来源于互联网的13233张来自5749个人的人脸图片，其中有1680个人至少有2张图片。

小型数据视觉数据

visualgenome

图像理解。为了使计算机理解图像，数据集中的图片被划分成一个个区域，每个区域都有与其对应的一句自然语言描述。共108,077张图。

视觉数据

LSUN

场景图片。包含10个场景类别，例如卧室、固房、客厅、教室等场景图像。每类场景大约有120,000至3,000,000张图片。

视觉数据

SVHN

门牌号码图片。SVHN（Street View House Number）Dateset 来源于谷歌街景中的门牌号码。训练集图片73257张，测试集26032张

小型数据视觉数据

最大图片集合。大约1500万张图片，2.2万个分类，一般情况下只用子数据集就可以了。。每张都经过了严格的人工标注。数据集还是按照WordNet框架组织的，WordNet模拟的就是人类对事物的识别系统。

视觉数据

CIFAR-10&100

32像素图片。CIFAR-10包含了10个种类的图片，包括飞机，汽车，鸟.....图片是彩色的。总共60,000个样本。CIFAR-100包含了100个种类，但是总共也只有60,000个样本。

小型数据视觉数据

MNIST

手写数字图片。训练集样本60,000个，测试集样本10,000个。由来自 250 个不同人手写的数字构成, 其中 50% 是高中学生, 50% 来自人口普查局的工作人员。

小型数据视觉数据

检测图内中文。

文字检测项目视觉数据