吴恩达发起新型竞赛范式!模型固定,只调数据?!

打开 Kaggle ,琳琅满目的比赛让人目不暇接,研究的领域更是五花八门,从农林牧渔到衣食住行,似乎只要有数据,不论数据好坏,就可以直接使用各种机器学习的模型在其身上大展拳脚,从逻辑回归到 SVM,从决策树到 XGBoost,换着模型套用在数据上重复实验,最后再加上集成学习的方法就可以取得不错的结果。

这样的现状往往让人们产生一种错觉,所谓 AI 其实质上指的就是那些基于复杂数学原理构造的不同模型,只要将这些模型的数学原理拿支笔细细推导一番,现实生活中的一切问题便都可以被这些模型所解决。

然而事实上,机器学习的算法代码只是整个 AI 流水线中的小小一环,我们往往开玩笑的说道我们的工作 80% 都是在做数据预处理的工作,事实在某种程度上也确是如此,一个 AI 项目一般而言由四个步骤组成:项目分析——数据收集——模型训练——项目部署。应用与改造各种模型的工作只存在于第三步,但现阶段无论是研究还是比赛,往往都是给定一个数据集,让研究员或参赛者不断改进模型不断迭代以达到预期的效果。而面对模型准确率的瓶颈,唯一的黄金法则却只是增大数据的量级。

在这个背景下,近日,我们熟悉的吴恩达老师发起了一个以数据为中心的 AI 竞赛( Data-Centric AI competition ),区别于传统的以模型为中心的比赛( Model-Centric AI competition )不断改进模型以提升准确率的方法,这项比赛通过给定模型的方式,要求参赛者通过不断改进数据以获得更好的成绩。

具体而言,这项比赛给予参赛者一个包含约 3000 张手写罗马数字 1-10 的图像数据集,在使用 ResNet50 模型的基础上,要求参赛者应用以数据为中心的方法对数据集进行改进以提升分类的准确率,其主要手段有应用数据增强、修复不正确的标签、新增体现边缘特征的样本等等

吴恩达老师指出,就目前来看,许多应用的模型与相应的代码实现其实是一个已经被解决了的问题。但是与一套已经成熟的可以应用到工业界的算法体系相比,现在更加缺少的也许是一套成熟的构建工业化数据集的方法论。而另一方面,尽管增加数据是目前提升模型性能的不二法门,但是根据调查,大多数的现实应用的数据量级往往是集中在 10000 上下,在小规模数据的情况下,数据质量的重要性将会更加凸显

从一个简单的小例子来看,当一个小数据集存在错误标签时,模型很难给出一个正确的输出,当增加数据量级时,错误标签带来的影响将会被削弱,模型有可能从大规模数据中得出正确的分类结果。但如果我们转换思路,如果我们对小数据集的错误标签进行处理,得到一个非常“干净”的数据集,那么我们将同样有可能得到正确的分类结果

从某种意义上讲,这种以数据为中心的方法的提出,完成了一次机器学习领域的“哥白尼倒转”,过去我们会认为在研究与比赛中应该模型绕着数据转,但现在一种数据绕着模型转的方法未尝不能以更有效率的方式做到同样的事情。然而可惜的是,在目前关于如何取获得“质量更好”而非“数量更多”的数据尚无一种统一的方法论去处理,甚至有质疑者如图灵奖得主 Judea Pearl 教授认为在不知道什么是质量更好的数据的基础上提升数据质量是不太现实的。但从某种程度上讲,这也是吴恩达老师举办这场比赛的原因之一。

目前,吴恩达老师的思路集中在借鉴 MLOps(机器学习操作)的思维框架之上。MLOps 是将 DevOps 原则应用于机器学习系统开发过程的实践,为缩短模型开发部署的迭代周期,MLOps 在一个机器学习系统从发布到规划部署的全部阶段应用自动化的流程连接模型构建、业务与运维团队,从而使得企业更加高效的应用机器学习系统。

针对以数据为中心的任务,首先使用固定模型对数据进行训练,针对结果进行错误分析,识别出模型处理不当的数据类型,再通过诸如数据增强、错误标签修复等方法增强数据,再进入模型之中反复持续改进。吴恩达老师希望以数据为中心的方法结合新的 MLOps 工具可以使得机器学习系统的构建更具高效性与系统性,并最终形成一个贯穿整个 AI 生命周期的工具集合。~

(0)

相关推荐

  • 利用AI检测IoT恶意流量

    #前言 目前大量物联网设备及云服务端直接暴露于互联网,这些设备和云服务端存在的漏洞(如:心脏滴血.破壳等漏洞)一旦被利用,可导致设备被控.用户隐私泄露.云服务端数据被窃取等安全风险,甚至会对基础通信网 ...

  • 万字干货|一文助你了解机器学习

    本文将通过大量案例和通俗易懂的"人话",讲述机器学习建模逻辑和使用场景,让非数据科学专业的职场人都可以快速了解机器学习是什么,能做什么,如何用! 从AlphaGo战胜李世石开始,A ...

  • 陈根:纠偏AI歧视,从打破行业偏见开始

    文/陈根 科技是人类现有文化的延伸.科技在延展了人类智慧的同时,也继承了人们的偏见和歧视. 当前,人工智能作为第四次工业革命中的代表性技术,正在迅速改变我们所认知的世界.然而与此同时,现实世界中,由人 ...

  • [首藏作品](6049)姿态逐渐“亲民” 2021年AI五大趋势备受期待

    姿态逐渐"亲民" 2021年AI五大趋势备受期待 2021年人工智能领域备受期待的五大趋势图片来源:美国<福布斯>双周刊网站科技创新世界潮◎本报记者 刘 霞人工智能(A ...

  • 吴恩达新课发布1天,引3万人观看 | 完整PPT

    作者丨金磊 来源丨量子位 编辑丨极市平台 什么样的课程, 时间,便吸引了全球近3万人的观看? 有名师--国际最权威的ML学者之一,吴恩达(Andrew NG). 有较新概念--机器学习操作 (MLOp ...

  • 【AI有识境】如何掌握好图像分类算法?

    大家好,这是专栏<AI有识境>的第一篇文章,讲述如何掌握好图像分类算法. 进入到有识境界,可以大胆地说自己是一个非常合格的深度学习算法工程师了,能够敏锐地把握自己研究的领域,跟踪前沿和能落 ...

  • AI系统中的偏差与偏见

    人工智能系统中存在着偏见,但是有偏见的算法系统并不是一个新现象.随着包括司法和健康等领域在内的各种组织都在采用人工智能技术,人们开始关注对基于人工智能的决策缺乏问责制和偏见.从人工智能研究人员和软件工 ...

  • 吴恩达:机器学习应以数据为中心

    今天是吴恩达45岁生日.他是国际最权威的ML学者之一,学生遍布世界各地.在最近的一期线上课程中,吴恩达提出了以模型为中心向以数据为中心的AI. 吴恩达发推称,「大家为自己送上最好的礼物就是,观看这个视 ...

  • MLOps 正在改变机器学习模型的开发方式

    提供机器学习解决方案远不止仅提供模型那么简单.机器学习运维 (MLOps) 的基础理论可以帮助数据科学团队更快.更有信心地交付模型,其涉及版本控制.测试和流水线这三个关键概念. MLOps(https ...

  • 吴恩达团队新研究:在ImageNet上优化的模型,真的能更好胜任医学影像任务吗?

    来源:新智元 目前,已经有不少深度学习模型被广泛地用于辅助性的胸片(Chest X-Ray)解释,这有助于帮助减轻临床医生的日常工作. 其中,使用预训练的 ImageNet 模型进行迁移学习,已经成为 ...

  • 吴恩达:22张图全解深度学习知识!

    作者:Sophia,编辑:数据派THU 本文从深度学习基础.卷积网络和循环网络三个方面介绍该笔记. 吴恩达在推特上展示了一份由 TessFerrandez 完成的深度学习专项课程信息图,这套信息图优美 ...

  • 吴恩达:最新的28张图,全解深度学习知识!

    重磅干货,第一时间送达 编辑:Sophia 本文参考机器之心,思源.刘晓坤大佬的总结 最近看到不少分享28张图,全解深度学习知识的内容,但是基本都说成了22张图,明明28张好不好!同时,配图不少也都搞 ...

  • 老师吴恩达,身家又增20亿

    由吴恩达创办的在线教育平台Coursera准备IPO,拟登陆纽交所上市,股票代码为COUR. 本次预计估值超过40亿美元,与2020年6月时的估值24亿美元相比增长了近一倍. Coursera拟发行1 ...

  • 吴恩达机器学习笔记1

    一.关于回归方程的直观印象 我们有一批关于'房屋面积'和'房子价格'的数据,如图1-1: [图 1-1] 从图右边中可以很直观地看出,大致上,随着房屋面积的增加,房屋的售价也在提高,也就是它俩之间有' ...

  • 吴恩达机器学习笔记2

    一.逻辑回归(Logistics 回归)直观印象 逻辑回归是用来解决分类问题,比如给定一个肿瘤的直径大小(x),要预测出它是良性(0)还是恶性(1),如图1-1. [图1-1] 如图中我们可以直观地看 ...

  • 吴恩达74岁老父亲自述终身学习路,8年学完146门课程

    大数据文摘出品 作者:牛婉杨.魏子敏 吴恩达这个名字你一定不陌生,他是当今人工智能和机器学习领域国际最权威的学者之一.作为斯坦福大学计算机科学系和电子工程系的副教授,以及在线教育平台Coursera的 ...