Magic Data

对于AI开发者来说，没有好的数据算法再好也没用，好的数据从哪里找？开源社区是重要的数据获取地。

为了帮助开发者快速找到想要的数据，编者博观约取，汇总了20个高质量的开源社区，并对这些开源社区作简要介绍和分析，帮助大家快速找到合适的训练数据。

图像数据集

1. CORe50开源平台

CORe50是专为（C）物体（O）物体（Re）认知而设计的，它集合了50个生活用品和10个类别，用于连续目标识别的新数据集和基准。

网址：http://vlomonaco.github.io/core50/

2. 加州理工学院数据集

加州理工学院提供图片数据，数据共有101个类别，每个类别大约40~800张图像，每个图像大小约为300x200像素。开发者可用这些数据集来测试识别算法。

网址：http://www.vision.caltech.edu/Image_Datasets/Caltech101/

3. STL数据集

STL数据集是用于开发无监督特征学习，深度学习，自学型学习算法的图像识别数据集它受CIFAR-10数据集的启发，但进行了一些修改。该数据集共有十个类别图像，共100000张未标记的图像。

网址：https://cs.stanford.edu/~acoates/stl10/

4. NORB图像识别数据集

该数据集可用于从形状识别3D对象的实验。数据集包含50个玩具的图像，这些玩具共有5大类，训练集由每个类别的5个实例（实例4、6、7、8和9）以及其余5个实例的测试集（实例0、1、2、3和5）组成。

网址：https://cs.nyu.edu/~ylclab/data/norb-v1.0/

5. ImageNet

ImageNet是根据WordNet层次结构（目前仅名词）组织的图像数据库，其中层次结构的每个节点都由成百上千个图像表示。该项目在推进计算机视觉和深度学习研究方面发挥了作用。该数据可免费提供给研究人员用于非商业用途。

网址：http://image-net.org/index

6. The Children's Book Test

由Project Gutenberg 提供的儿童图书中提取的（问题+背景、答案）对的基线。用于问答（阅读理解）和仿真查找。

下载链接：http://www.thespermwhale.com/jaseweston/babi/CBTest.tgz

7. UCI机器学习存储库

UCI是加州大学欧文分校机器学习社区，目前共有585个数据集，涉及医疗、物理、商业、社会科学等领域，数据集适合高校教育者进行机器学习实验用。该社区创建于1987年，自创建起被全世界高校学生和教育者关注。

网址：http://archive.ics.uci.edu/ml/index.php

文本类数据集

8. 亚马逊开源数据集

亚马逊提供了大量可供下载的数据集，可用于机器学习、自然语言处理等。该数据集可在亚马逊平台上使用，也可以在本地计算机上使用。

网址：https://registry.opendata.aws/

9. Kaggle社区

Kaggle是一个数据科学竞赛平台，目前已被谷歌收购。在这个平台上研究者可以发布数据和问题，并且提供一定奖金给能够解决问题的人，相当于一个众包类型的数据平台。社区拥有文本类数据集外还包含图像、音频等数据集，很多用于机器学习的数据可以免费下载。

网址：https://www.kaggle.com/

10. 复旦大学中文文本分类语料库

数据集由复旦大学计算机信息与技术系国际数据库中心自然语言处理小组提供，包括9833篇测试语料文档和9804篇训练语料文档，总共分20个类别。数据集适合NLP学习使用。

网址：https://www.kesci.com/mw/dataset/5d3a9c86cf76a600360edd04

11. CMU Q / A 数据集

CMU Q / A 提供了问题和答案数据集，其难度等级来自维基百科文章链接，这些链接由人工生成的拟事实问题以及针对这些问题的人工生成的答案，可用于学术研究。这些数据集由一批从事自然语言处理和机器学习的计算机科学家，以及耐基梅隆大学和匹兹堡大学的许多学生共同收集。

网址：http://www.cs.cmu.edu/~ark/QA-data/

12. bAbI数据集

bAbi数据集来自 Facebook AI Research（FAIR）的综合阅读理解和问答数据集。内容包括儿童读物、电影对话、WiKiMovies、基于对话框的语言学习数据集等。

网址：https://research.fb.com/projects/babi/

13. Data Portal

平台共列出了来自世界的590个数据门户网站，数据多是国家和地区的公开数据，关于城市的医疗、人口、地理信息等数据。

网址：http://dataportals.org/

14. 多领域情绪分析数据集

多领域情绪分析数据集是一个较旧的学术数据集，在之前1.0版本基础上现在更新到2.0版本，共有2G左右数据集，包含来自Amazon.com的许多产品类型（域）的产品评论。

网址：http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

语音数据集

15. Datahub社区

Datahub社区提供金融、医疗、社科、教育等领域相关数据集，涉及范围较广也很杂。

网址：https://datahub.io

16. Academic Torrents

Academic Torrents官网显示，平台共提供超过65TB研究数据，任何人都可以通过该平台上传数据集，分享的大量数据集供研究者使用。平台主要以语音和图像数据为主，主要聚焦医疗领域。

网址：https://academictorrents.com/

17. OpenML数据库

OpenML是一个免费的机器学习实验数据库，任何人都可以在平台上共享和下载大量的开源数据。目前平台共有92组数据集，涉及医疗、机械、互联网、金融等行业。

网址：https://www.openml.org/

18. GitHub社区

GitHub社区除了海量的代码，论坛版块还有海量数据集，这些数据可免费下载，领域划分较细，包括农业、气候、生物学、计算机网络、经济、教育、金融等领域数据集。

网址：https://github.com/awesomedata/awesome-public-datasets

19. OpenSLR开源平台

OpenSLR是美国著名的语音资源平台，托管着来自世界各地的开源语音数据资源。中国开发者通过OpenSLR中国镜像可以下载平台上的开源数据。目前Magic Data为平台镜像提供数据存储服务。平台共有超过1000小时英语语音语料库。

网址：http://www.openslr.org/

20. MagicHub开源社区

MagicHub开源社区是由数据公司Magic Data开发并维护。目前社区向开发者初次开源了30多组对话式AI数据集，供开发者测试和训练，包括中英文客服文本语料库、发音词典、TTS普通话数据集、八大方言区数据集和意大利语、阿拉伯语、西班牙语等数十种语言数据集。数据集数量和类型将持续更新。

网址：http://magichub.io/

新闻

干货 | 训练AI模型找不到数据？20个精选开源社区收藏好！

即刻与 Magic Data 建立联系？