专家观点 | 浅谈MLOps由来 ——企业级人工智能应用助推剂来了

秦思思 人工智能产业发展联盟AIIA 2022-01-13 20:05

MLOps作为人工智能(AI)工程化重要内容,连续两年进入Gartner数据科学与机器学习技术成熟度曲线。国外头部科技企业和诸多创业型企业已纷纷推出MLOps平台或工具,国内BATJ及华为等头部科技企业和部分创业型企业也已开始布局MLOps,银行等金融机构已启动或规划MLOps的落地。那么MLOps到底是怎样神奇的存在?


在AI工程化实践中,一直以来面临的核心问题是如何将AI数据、算法、模型与实际场景相结合,构建更加复杂和完整的解决方案,为各行各业创造规模化的业务价值。而脱胎于DevOps的MLOps可以解决这类问题,它是使AI应用从小作坊的手工模式走向大工厂的流水线模式的救星,是促进AI规模化落地的有力保障,是打通人工智能工程化最后一公里不可缺失的部分。


敲黑板(MLOps是什么):MLOps(Machine Learning Operations),面向机器学习项目的研发运营管理体系,目的是连接业务团队、AI团队和运营团队,建立一套标准化的模型开发、部署与运营流程,以管理机器学习项目的全生命周期。


MLOps发展由来

1.2015年Google发布论文《Hidden Technical Debt in Machine Learning Systems》发起了业界对解决机器学习技术债问题的探索,主要原因是机器学习系统中代码只占很小一部分,其余部分包括配置、自动化、数据收集、数据验证、测试和调试、资源管理、模型分析、过程和元数据管理、服务基础架构和监控等。

图片

图:摘自《Hidden Technical Debt in Machine Learning Systems》


2.2018年Google举办的一场演讲中,首次公开谈及工业运行(生产)中机器学习生命周期集成化管理的必要性。

3.2019年martinFowler.com上发布《Continuous Delivery for Machine Learning》,阐述了机器学习项目如何开展持续交付,并提出了端到端的持续交付流程(如下图所示)。

图片

图:摘自《Continuous Delivery for Machine Learning》


4.2020年各种规模的行业组织开始转向人工智能项目的大规模部署,并布局MLOps平台或工具,推动企业智能化转型。

图片


5.2021年吴恩达提出,“MLOps将帮助每个人完成机器学习项目的整个生命周期”,如下图所示。

图片


MLOps备受关注

敲黑板:产业界对AI的关注从算法、模型调优的技术问题转向了工程化及效能问题。


近年来,超过60个国家或地区的政府在推动人工智能产业发展,我国于2021年3月发布的“十四五规划和2035远景目标”将人工智能视为国家级科技战略之一。人工智能产业化发展势不可挡,源于DevOps理念的MLOps是推动人工智能产业规模化发展行之有效的落地路径。根据Google搜索显示,从2020年底开始,MLOps关注度指数迅猛增长。

图片


图片

图:Google Trends上关键词“MLOps”的流行趋势及地域分布


麦肯锡研究2020指出,50%人工智能专家使用标准的开发工具和框架来创建人工智能模型。Forrester Research 2020研究发现,73%的商业领袖相信MLOps的使用将使他们保持竞争力,24%的专家认为MLOps的使用会使他们成为行业的领导者。咨询机构Cognilytica 2020年研究显示,MLOps市场规模将从2019年的3.5亿美元快速增长到2025年的40亿美元。Gartner将XOps(包括MLOps、ModelOps、DataOps和PlatformOps)列为2021年十大数据和分析技术趋势之一,并将AI工程化列为2022年重要战略技术趋势之一。


MLOps解决的问题


机器学习项目天生带有诸多技术债的特点,创建机器学习模型并非难事,难就难在管理和运营机器学习数据、算法和模型的全生命周期。MLOps的核心价值在于,使AI工程师不用再沦陷于处理繁琐的模型更新和维护等工作,而可潜心钻研更有价值的项目


解决机器学习项目角色间沟通壁垒ML项目研发过程中各角色之间(业务人员、AI工程师、数据科学家、运维工程师等)存在着天然鸿沟,而打破沟通屏障,构建畅通的协作平台,降低合作成本,是让项目顺利开展需要解决的首要问题。


解决机器学习项目又慢又难的困顿。机器学习模型开发部署的迭代周期较长,据统计(Algorithmia2020)很大一部分公司需要30-90天上线一个模型,其中18%的公司需要90天以上,这对后互联网时代的企业来说是无法容忍的成本,而借鉴DevOps的持续交付持续部署理念恰恰能解决这一问题。


解决机器学习项目数据、算法、特征、模型等资产管理繁杂的问题。机器学习项目的数据和模型缺乏统一管理,和传统软件相比,数据和模型比代码管理起来更为复杂和繁琐,尤其是版本的管理更加复杂化,版本的完整性和追溯性存在较大挑战。由于数据、算法和模型是一个有机整体,为实现模型的复现,在追溯模型的同时,也需追溯与之对应的算法和数据。


解决机器学习模型随时退化的先天缺陷。模型的监控及维护体系不完善,在部署的那一刻开始模型即存在着降级退化风险(内容漂移、数据漂移等)。因此,基于持续监控,实现数据回流,开展模型维护,是保证推理质量,持续实现业务价值的重要环节。如吴恩达所说,当进入模型运维阶段的那一刻起,并不意味着即将结束,而意味着另一个开始。


MLOps亮点(多快好省)


MLOps是机器学习项目走向规模化应用的有效途径,通过持续训练、持续集成、持续部署、持续监控等多个自动化循环流程(多),大大减少开发周期(快),提升交付质量(好),降低人员依赖(省),提高研发效能,推动挖掘更多元化的业务价值。


借鉴DevOps精髓,MLOps从需求到模型维护的全链路,以及模型开发及训练的子链路,和模型部署及监控的子链路,都秉承着持续闭环的全生命周期管理模式,具体亮点如下。

图片

  • 持续训练CT,实验阶段模型的持续训练能大大降低AI工程师时间成本,上线模型的持续训练能提高模型服务质量,及时应对数据漂移和内容漂移等风险。

  • 持续集成CI和持续部署CD,以达到随时随地轻松部署ML模型目的。

  • 持续监控CM,持续开展线上的模型和业务监控,根据监控报警开展模型重复训练和更新,维持和提高模型推理质量,持续创造高水准业务价值。

  • 流水线Pipelines,数据处理流水线、模型开发流水线、集成交付流水线的构建,最大程度提高自动化水平,高效率实现ML项目全生命周期管理。

  • 特征管理、算法管理、模型管理,通过对特征、算法和模型的存储及管理,最大限度发挥各类资产的价值,减少重复造轮子的组织级成本,提高统筹管理效能。

  • 版本管理,模型的版本管理即对数据、算法、模型等资产完整性及可追溯性的集中管理,能随时重现任何时刻的模型快照。

  • 自动化测试,集成自动测试工具,提高测试的自动化水平,包括组件测试、数据验证、模型验证等,进而提高全链路持续化水平。


工程化使悬在云端的AI梦想终于落地变成现实,而MLOps是工程化助推剂。未来MLOps的发展将在流水线间的连通性、模型线上自更新、资源伸缩性管理、模型自动调参、模型可解释性、模型安全性及公平性等方面得到进一步的探索和实践。


人工智能已走入千家万户,MLOps走入千家万企已指日可待,未来可期。


中国信通院云大所着力推动人工智能工程化的技术研究、标准制定、测试评估和优秀实践推广等工作。近期,一是成立了工程化推进委员会,下设AI研发运营和管理组、大模型应用组、知识计算应用组和AI数据集治理组,推动企业级人工智能工具、系统、流程和治理体系的完善。二是研究形成了《人工智能研发运营一体化(Model/MLOps)能力成熟度模型》标准体系,希望通过吸收产业界优秀实践,形成统一的标准体系,指导企业提高AI研发运营管理能力,推动AI规模化应用,促进企业智能化转型。
图片


我们诚挚欢迎对相关工作感兴趣的企业加入,共同助力人工智能与行业的深度融合。


联系人:秦思思 13488684897


往期推荐:





中国信通院“AI产品研发原生可信评估”正式启动


关于征集人工智能关键技术和应用评测工信部重点实验室工程化推进委员会参与单位的通知


中国信通院筹建“内容科技产业推进方阵” 招募成员单位


关于征集《人工智能研发运营一体化(Model/MLOps)能力成熟度模型》标准起草单位的通知


中国信通院“可信AI”成果发布会亮点抢先看(二)


图片