THUOCL

0

数据集精选

THUOCL

中文词库分词。是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库，词表来自主流网站的社会标签、搜索热词、输入法词库等。THUOCL具有以下特点：包含……

标签：NLP数据

链接直达手机查看

广告也精彩

中文词库分词。是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库，词表来自主流网站的社会标签、搜索热词、输入法词库等。THUOCL具有以下特点：包含词频统计信息DF值（Document Frequency），方便用户个性化选择使用。词库经过多轮人工筛选，保证词库收录的准确性。开放更新，将不断更新现有词表，并推出更多类别词表。该词库可以用于中文自动分词，提升中文分词效果。

数据统计

相关导航

古诗词数据库

最全诗词集合，唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人，21050首词。

长时依赖词库。包含1亿个词汇的英文词库数据，这些词汇是从Wikipedia的优质文章和标杆文章中提取得到的。每个词汇还同时保留产生该词汇的原始文章，这尤其适合当需要长时依赖(longterm dependency)自然语言建模的场景。

中文语料

大规模中文自然语言处理语料

目标分割数据。DAVIS(Densely-Annotated VIdeo Segmentation)数据集是视频目标分割(VOS)任务中最重要的数据集之一。

最大自动驾驶数据集。包括了1000万张无标注图片以及2万张带标注图片。SODA10M数据集收集了不同城市在不同天气条件、时间段以及位置的场景。晴天雨天、白天夜晚、城市高速园区…… 更重要的是，覆盖面很广。 1000万张无标注图片来自32个城市，囊括了国内大部分地区。

最大图片集合。大约1500万张图片，2.2万个分类，一般情况下只用子数据集就可以了。。每张都经过了严格的人工标注。数据集还是按照WordNet框架组织的，WordNet模拟的就是人类对事物的识别系统。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...