数据集精选

wikitext

长时依赖词库。包含1亿个词汇的英文词库数据，这些词汇是从Wikipedia的优质文章和标杆文章中提取得到的。每个词汇还同时保留产生该词汇的原始文章，这尤其适合当需要长时依赖(longt……

标签：NLP数据

链接直达手机查看

长时依赖词库。包含1亿个词汇的英文词库数据，这些词汇是从Wikipedia的优质文章和标杆文章中提取得到的。每个词汇还同时保留产生该词汇的原始文章，这尤其适合当需要长时依赖(longterm dependency)自然语言建模的场景。

数据统计

相关导航

古诗词数据库

最全诗词集合，唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人，21050首词。

中文语料

大规模中文自然语言处理语料

THUOCL

中文词库分词。是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库，词表来自主流网站的社会标签、搜索热词、输入法词库等。THUOCL具有以下特点：包含词频统计信息DF值（Document Frequency），方便用户个性化选择使用。词库经过多轮人工筛选，保证词库收录的准确性。开放更新，将不断更新现有词表，并推出更多类别词表。该词库可以用于中文自动分词，提升中文分词效果。

CIFAR-10&100

32像素图片。CIFAR-10包含了10个种类的图片，包括飞机，汽车，鸟.....图片是彩色的。总共60,000个样本。CIFAR-100包含了100个种类，但是总共也只有60,000个样本。

MNIST

手写数字图片。训练集样本60,000个，测试集样本10,000个。由来自 250 个不同人手写的数字构成, 其中 50% 是高中学生, 50% 来自人口普查局的工作人员。

AISHELL-1

178小时汉语。录音文本涉及智能家居、无人驾驶、工业生产等11个领域。录制过程在安静室内环境中，同时使用3种不同设备：高保真麦克风（44.1kHz，16-bit）；Android系统手机（16kHz，16-bit）；iOS系统手机（16kHz，16-bit）。高保真麦克风录制的音频降采样为16kHz。400名来自中国不同口音区域的发言人参与录制。经过专业语音校对人员转写标注，并通过严格质量检验，此数据库文本正确率在95%以上。分为训练集、开发集、测试集。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...