AINav.net - 一个属于AI人的导航网站

微信接入DeepSeek-R1了

OpenAI 发布文本到视频生成模型 Sora

爆火的ChatGPT太强了！写代码、改bug

显卡价格雪崩了

DeepMind的智能体成精了

最新资讯

所有

没有数据！点右上角编辑添加网址

没有数据！等待你的参与哦 ^_^

ForgeryNet

伪造检测。真实感合成技术的快速发展已经达到了一个临界点，真实图像和操纵图像之间的边界开始模糊。因此，基准测试和推进数字伪造分析已成为一个紧迫的问题。然而，现有的人脸伪造数据集要么多样性有限，要么只支持粗粒度分析。为了应对这种新出现的威胁，我们构建了 ForgeryNet 数据集，这是一个非常大的人脸伪造数据集，在图像和视频级数据中具有统一的注释，跨越四个任务：1）图像伪造分类，包括双向（真/假）、三个-way（真/假，带有身份替换的伪造方法/带有身份保留的伪造方法的假）和 n-way（真实和 15 种各自的伪造方法）分类。 2）空间伪造定位，将伪造图像的操纵区域与其相应的源真实图像进行分割。 3）视频伪造分类，它重新定义了视频级别的伪造分类，其中操纵帧位于随机位置。这项任务很重要，因为现实世界中的攻击者可以自由地操纵任何目标帧。 4) Temporal Forgery Localization，对被操作的时间段进行定位。 ForgeryNet 在数据规模（290 万张图像，221,247 个视频）、操作（7 个图像级方法、8 个视频级方法）、扰动（36 个独立和更多混合扰动）方面是迄今为止最大的公开可用的深度人脸伪造数据集) 和注释（630 万个分类标签、290 万个操作区域注释和 221,247 个临时伪造片段标签）。我们对现有的人脸取证方法进行了广泛的基准测试和研究，并获得了一些有价值的观察结果。

MovieNet

电影理解。用于电影理解的整体数据集近年来，视觉理解取得了显着进展。然而，如何理解具有艺术风格的基于故事的长视频，例如电影，仍然具有挑战性。在本文中，我们介绍了 MovieNet——一个用于电影理解的整体数据集。 MovieNet 包含 1,100 部电影，包含大量多模态数据，例如预告片、照片、情节描述等。此外，MovieNet 提供了不同方面的手动标注，包括 110 万个带有边界框和身份的字符、42K 场景边界、 2.5K 对齐的描述句子，65K 地点和动作标签，以及 92K 电影风格标签。据我们所知，MovieNet 是最大的数据集，具有最丰富的注释，可用于全面的电影理解。基于 MovieNet，我们设置了多个基准，用于从不同角度理解电影。在这些基准上进行了广泛的实验，以展示 MovieNet 的不可估量的价值以及当前方法在全面理解电影方面的差距。我们相信这样一个整体的数据集将促进基于故事的长视频理解及其他方面的研究。

OpenLane

车道数据集。OpenLane 是迄今为止第一个真实世界和规模最大的 3D 车道数据集。我们的数据集从公共感知数据集 Waymo Open Dataset 中收集有价值的内容，并为 1000 个路段提供车道和最近路径对象（CIPO）注释。简而言之，OpenLane 拥有 200K 帧和超过 880K 仔细注释的车道。我们公开发布了 OpenLane 数据集，以帮助研究界在 3D 感知和自动驾驶技术方面取得进步。

OmniObject3D

物体数据集，包含大量高质量真实扫描的 3D 物体，旨在促进现实世界中 3D 感知、重建和生成技术的发展。每个物体都通过 2D 和 3D 传感器捕获，提供纹理网格、点云、多视角渲染图像以及多个环绕实拍的视频。

目标检测，物体识别

给视频加字幕

阿里大模型开源

人物图生成。利用多张照片作为身份ID，获取人物特征，然后根据描述生成一个新的、个性化的人物图像。

OpenVoice

语音克隆

MaterialSearch

文搜图，视频

学习|竞赛网站

人工智能教程

史上最风骚最通俗易懂的人工智能培训。零基础，通俗易懂，风趣幽默。带领无数人进入人工智能专业的大神之作！

简单易懂的python教程

全球最大的AI竞赛平台

爱奇艺主导的AI竞赛平台

一个优质的AI竞赛平台

AI产品精选

更多+

腾讯元宝

免费deepseek

47 0

AI产品精选

鲜艺抠图

AI抠图。免费的AI抠图工具，鲜艺抠图,ai。

39 0

AI产品精选

语音克隆

语音克隆。Experience the magic of our AI voice changer at voicechanger.im. Easily upload recordings or text to transform your voice with advanced effects, including our girl voice changer and free voice changer online. Perfect for content creation, privacy, and entertainment.

39 0

AI产品精选

美图设计

生成PPT。美图设计室是美图秀秀旗下的智能设计在线协作平台，是一款平面设计工具和在线平面设计软件,提供海量海报模板,跨境电商模板,跨境电商banner,跨境电商主图,邀请函,公告通知,喜报,logo等免费设计素材和模板,可在线智能生成海报,一键换色,一键换装,一键去水印,图片高清修复,无损放大,抠图,拼图。

38 0

免费图文素材免费海报设计平面设计制作智能海报生成

腾讯检测

判断AI内容

32 0

AI产品精选

即梦AI

视频生成。即梦AI一站式智能创作平台，即刻造梦。提供AI绘画和AIGC视频创作体验，拥有激发无限创作灵感的社区。让即梦AI开启您的智能创作之旅，探索梦境实现的无限可能！

AIGCAI作画AI创作图片AI生成

生成视频

讯飞绘镜

音乐生成。海绵音乐是一款 AI 音乐创作产品，输入一句话灵感或者歌词，即可快速生成音乐，最大限度拉近每个人同音乐创作的距离。同时，海绵音乐提供了丰富的自定义功能，让每个人都可以一键创作属于自己的 AI 音乐。在这个过程中，偶遇惊喜，发现更多可能，为你打造耳目一新的音乐创作体验

AI作曲AI写歌AI写词AI音乐

AI生图

AI产品精选

AI写作助手

AI产品精选

开源项目精选（若github打不开，请多试几次）

更多+

YOLO

目标检测，物体识别

27 0

开源项目精选（若github打不开，请多试几次）

AutoCaption

给视频加字幕

12 0

开源项目精选（若github打不开，请多试几次）

通义千问

阿里大模型开源

26 0

开源项目精选（若github打不开，请多试几次）

photo-maker

人物图生成。利用多张照片作为身份ID，获取人物特征，然后根据描述生成一个新的、个性化的人物图像。

19 0

开源项目精选（若github打不开，请多试几次）

OpenVoice

语音克隆

26 0

开源项目精选（若github打不开，请多试几次）

MaterialSearch

文搜图，视频

29 0

开源项目精选（若github打不开，请多试几次）

labelU

标注工具

27 0

开源项目精选（若github打不开，请多试几次）

HivisionIDPhotos

证件照生成

35 0

开源项目精选（若github打不开，请多试几次）

echomimic_v2

视频生成

26 0

开源项目精选（若github打不开，请多试几次）

deepseek开源

deepseek开源

53 0

开源项目精选（若github打不开，请多试几次）

数据集精选

更多+

数据集精选

数据集精选

数据集精选

数据集精选

医学图像数据集。MedMNIST v2 是一个大规模的 2D 和 3D 医学图像分类数据集，包含 12 个 2D 数据集和 6 个 3D 数据集，其中 2D 数据集有 708069 张图片，3D 数据集有 10214 张图片。数据集包含多种模态（X 光片、视网膜 OCT、超声、CT 等）、多种任务（多分类、二分类、多标签、有序回归），数据集规模从百量级到十万量级不等；

880 0

医疗数据视觉数据

Ego4D

第一视角视频数据集。Facebook和NUS、MIT等高校联合推出3000小时的第一视角视频数据集Ego4D

1,378 0

视觉数据

alphafold

蛋白质结构。98.5%的人类蛋白质结构被Google AlphaFold2预测出来了！而且还做成了数据集，全部免费开放！

603 0

医疗数据

openimages

超大图片集合。谷歌发布的图片数据库Open Images，包含了900万标注数据，标签种类超过6000种。谷歌在官方博客中写到，这比只拥有1000个分类的ImageNet 更加贴近实际生活。对于想要从零开始训练计算机视觉模型的人来说，这些数据远远足够了。

1,000 0

视觉数据

DAVIS

目标分割数据。DAVIS(Densely-Annotated VIdeo Segmentation)数据集是视频目标分割(VOS)任务中最重要的数据集之一。

948 0

目标分割数据视觉数据

kitti

自动驾驶数据。是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据，每张图像中最多达15辆车和30个行人，还有各种程度的遮挡与截断。

979 0

自动驾驶数据视觉数据

开发工具精选

更多+

Colab

免费GPU平台。这是Google提供的一个服务，所以需要有访问境外网站的能力才能使用。

1,440 0

开发工具精选

ML Kit

手机AI开发工具包。ML kit是一种手机平台SDK，是一种能够将谷歌专业的机器学习知识带到应用中的极其简单易用的封装包。无论您是否有机器学习的经验，您都可以在几行代码中实现您想要的功能。甚至，您无需对神经网络或者模型优化有多深入的了解，也能完成您想要做的事情。另一方面，如果您是一位经验丰富的ML开发人员，ML kit甚至提供了便利的API，可帮助您在移动应用中使用自定义的TensorFlow Lit模型。

801 0

开发工具精选

pycharm

Python集成开发环境。首先，PyCharm用于一般IDE具备的功能，比如，调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制…… 另外，PyCharm还提供了一些很好的功能用于Django开发，同时支持Google App Engine，更酷的是，PyCharm支持IronPython！

开发工具精选

一个AI开发框架

开发工具精选

一个AI开发框架

开发工具精选

开发工具精选

开发工具集成平台。它就像一个航空母舰，在里面可以轻松安装python，tensorflow，vscode等等。官网下载慢，可以去清华镜像网站下载https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/

开发工具精选

自动翻译框架

NLP项目

智能会话框架。DeepPavlov是一个基于TensorFlow和Keras的，专门针对对话系统研究和实验部署的自然语言处理框架。框架主要包括：常用的NLP模型（包括Pre-train模型）如词向量训练、分类、命名实体识别（NER）、相似度计算等；针对对话系统实现和评测的实验框架（Framework）基于Json文件进行开发流程和数据流pipeline配置；提供同第三方应用进行集成的工具如与Amazon Alexa和Microsoft Bot Framework的集成；为对话模型的评测提供Benchmark环境 DeepPavlov的默认Pre-train模型和测评数据集主要基于英文和俄文，对于中文场景需要做适当的调整。

1,019 0

开发工具精选

europilot

用游戏训练自动驾驶。Europilot是一个开源项目，它使用python控制Euro Truck Simulator 2开发自我驾驶算法的工具包。利用流行的欧洲卡车模拟器（ETS2）开发自动驾驶算法。使用europilot，可以捕获游戏屏幕输入，并以编程方式控制模拟器内的卡车。Europilot可以以两种方式之一使用：培训或测试。对于培训，europilot可以实时捕获屏幕输入并输出一个numpy数组，同时获取轮盘游戏杆值。为了进行测试，europilot可以创建一个虚拟的操纵杆驱动程序，该驱动程序可以在游戏中识别，并可以通过编程方式控制卡车。使用此操纵杆，您可以创建一个实时推理网络，该实时推理网络将游戏屏幕用作输入，并输出相关的操纵杆命令，例如转向。

1,174 0

自动驾驶项目视觉项目