乾明 发自 凹非寺
量子位 报道 公众号 QbitAI
福音。AI 开发门槛现在更低。
不用你编码,甚至无需 AI 开发经验。
如今你所需所做:只需标注一小部分数据,然后它就会帮你标注剩下数据,并且自动化完成模型训练,并且一键部署。
在整个过程中,它还能够实现自动调参,能够自动 debug,并进一步提高模型的精度。
甚至到了模型落地阶段,如果开发者遇到难例,还能够自动帮开发者收集起来,用于进一步自动提升模型精度。
而福音集大成的“它”,就是华为云最新重磅发布的一站式 AI 开发管理平台ModelArts 2.0。
压轴发布产品
在 2019 华为全联接大会的最后一天主题演讲现场,其作为压轴产品隆重出场。
与此同时,华为豪掷 15 亿美元打造开发者生态的细节也进一步公布(听说有羊毛可以薅,见文末)。
和去年华为全联接大会上首次发布 ModelArts 相比,华为云这次发布的 ModelArts 2.0 有本质上的进化——对已有的 AI 开发模式进行了全流程的极简和专业升级。
同时,ModelArts 2.0 还支持华为自研的世界最快 AI 集群——Atlas 900,训练速度业界第一。
华为云 EI 服务产品部总经理贾永利介绍称,ModelArts 2.0 以全流程的极简和自动化升级已有的 AI 开发模式,让数据准备、算法开发、模型训练、模型管理、模型推理全链条产生质的飞越。
不仅能够降低初学者的门槛,初学者群体和庞大的软件开发者群体都能快速地把 AI 用起来。
还能够大幅提升专业 AI 开发者的开发效率并帮助模型调优,让算法工程师、数据科学家们聚焦基础核心的算法研究与创新。
或许你会好奇,如此产品,实际效能到底如何?是否徒有其表?
我们不妨以 AI 开发者的身份按照 AI 开发的步骤展开实验~
数据处理:自动过滤、自动打标签、自动评估数据集
处理数据,是 AI 开发的第一步,也是 AI 开发过程中非常痛苦的一步。
不仅要筛选数据,还要给数据打标签,因此也催生了一个新的职业——数据“民工”。
耗时耗力,而且精度难以保证。
这一次对于 ModelArts 全新升级,华为云也瞄准了这一痛点,给出了相应的解决方案,即在原有的数据服务基础上推出了相应自动化服务。
首先,是对数据智能数据筛选,用 AI 的方式自动过滤和筛选出对训练模型无效的数据。
贾永利也在现场进行了揭秘,比如在视觉类场景中,失焦、过度曝光的图片往往不能参与标注;而且,从业务场景上看,有些不符合要求的也不能参与标注。
筛选效果如何?华为云深度学习架构师白小龙介绍称,其能够快速筛选出 40% 不可用的数据,而且误筛率极低。
与此同时,华为云 ModelArts 2.0 将业界传统的主动学习进行升级,首次提出混合智能标注技术,可以让标注效率获得至少 5 倍以上的提升。
据贾永利介绍,ModelArts 2.0 也能够基于样本质量特征、图像全局属性、标注特征等约 20 种特性的自动特征提取能力,帮开发者识别数据间的深层关系,指导开发者对数据进行优化。
最直接的一个应用就是它能够对不同批次的训练数据进行整体统筹,也能够对数据训练集、测试集的数据特征分布进行自动诊断,从而提高模型精度。
模型训练:自动学习,自动“炼丹”
不仅仅只是解放“数据民工”,这次 ModelArts 的升级中,对于“开发老手”也可以说是一个福音。
华为云直接将自动数据增强、超参自动搜索、神经网络架构搜索等技术进行融合,推出了一个多元搜索技术,不用你人工操作,全都交给 AI 来做。
贾永利说,这是业内独创的技术,精度表现上也远超业界水平。
在大会现场,华为云专家为在场来宾展示了一个构建细胞发育时期分类模型的例子:
通过多元搜索技术构建的单细胞基因图谱表达分类模型精度,相对于通过传统自动学习方法构建的模型,精度提升 5.4 个百分点,同时模型训练速度快了 5 倍。
在展区内,专家们还分享了另外一个例子:ImageNet 数据集通过自动搜索,达到 76.7% 精度只需要 600 小时,而 Google MobileNetV3 需要 40000 个小时。
不过,这一模型在训练过程中并不仅仅只面对 AI 初级开发者,在面对更加专业的开发者时,ModelArts 2.0 也会提供整个模型训练过程的“白盒子”,让他们能够更有针对性的对模型参数进行调整。
针对更加专注于数据建模和问题解决的资深算法工程师和数据科学家,华为 AI 计算框架 MindSpore 提供自动化的并行能力,只需简单几行描述就可以让算法跑到几十乃至上千 AI 运算节点上。
而且也能提供强大的自动微分能力,从源码级别帮助实现微分算子的自动开发,极大释放专家们的创造力。
贾永利也讲述了这背后能量:只需简单几行描述就可以让算法跑到几十乃至上千 AI 运算节点上。
以上是 MindSpore 2.0 自动并行的代码,仅需设置 auto_parallel 这一项参数即可将单卡模型自动并行到多机多卡上,华为云也在现场进行了演示。
同时,ModelArts 2.0 内置的 MindSpore 计算引擎也能够提供强大的自动微分能力,从源码级别帮助实现微分算子的自动开发,最大程度释放专家们的创造力。
以上是 MindSpore 自动微分的代码,仅需调用 tensor engine 的 differentiate API 即可自动得到反向算子的实现。
此外,华为云也开放了 ModelArts SDK,支持被集成到各类第三方开发环境(例如 PyCharm),从而为企业级应用打通开发流水线,支持线上线下协同的开发环境。
模型管理:自动 debug 调优,自动转换压缩
截止到这个阶段,开发者基本上就已经能够拥有训练良好的模型出来了。
但对于 AI 开发终点的路程,才行至中途。
接下来开发者需要对不同版本的模型进行管理与优化,然后针对不同的平台对模型进行转换。
这两个方面,华为云都有进行针对性升级。
首先在模型调优方面,对于算法开发人员来说,对模型性能的评估以及调优是一项重要且难度极高的工作。
现在,ModelArts 2.0 能够自动帮助开发者 debug 调优。
具体来说,华为云提供了丰富的模型评估、可视化以及诊断能力。而且,评估并不仅仅只是针对模型展开的,而是从数据到模型训练的整体过程进行评估。
评估之后,ModelArts 2.0 也能够基于评估结果给 AI 开发者提供模型诊断建议,来帮助开发者持续调优、增强模型。
模型最后完善阶段,便是部署了。
但在部署前,还需要针对不同的平台对训练优良的模型进行转换。
在这方面,华为云也进行了提升。同时专家介绍到,ModelArts 2.0 能够在不损失模型精度的情况下,对模型进一步压缩,从而提升模型在端侧和边缘侧部署的能力。
模型部署:自动难例发现,在线学习
最后,模型部署阶段,也是通常意义上 AI 开发进入的最后一个阶段。
但饱受 AI 开发折磨的开发者们都知道,这才是最具备压力的阶段。
因为 AI 模型要落地,是需要直接提供给用户使用的,换句话说,整个模型接收到的输入将会呈现各种各样的状态。
目前的 AI,基本上都是基于数据集的 AI。
那么,数据集之外的数据,模型能否 hold 住?能否保持在训练集和测试集上的精度?都是亟待解决的问题。
在这方面,除了云端实时服务和批量服务、端边云协同之外,华为云 ModelArts 2.0 也提供了自动难例发现功能。
直接打通了运行态和开发态,让数据和模型能在线持续学习和进化。
具体来讲,如果模型在实际推理的过程中,遇到了新的、且很难识别的数据,ModelArts 2.0 就会收集起来,之后再根据开发者需求,基于这些数据进行在线学习,提升模型的鲁棒性。
目前,这一功能已经率先在华为云自动驾驶云服务 Octopus 上试运行。
此外,如果开发者模型训练完毕但并不需要部署,也可以通过 ModelArts 的 AI 市场进行模型和 API 交易。这次的升级中,华为云在这方面也有新的升级,新增了预置模型二次调优的功能。
最后总结下华为云 ModelArts 2.0 的功能全景图:
有羊毛可薅!豪掷 15 亿美元
如此工具,华为云没有藏着掖着。基于 ModelArts,华为云在 2019 华为全联接大会期间举办了华为云人工智能大赛·垃圾分类挑战杯、华为云人工智能大赛·无人车挑战杯等赛事的决赛。
在大会现场,贾永利还展示了与上海交通大学联合举办的无人车挑战赛场景,开发者通过云侧进行开发与训练,训练好的模型部署到车上的 Atlas 200 系列的 HiLens Kit,实现车辆的自动行驶。
同时,华为正式对外公布了沃土计划 2.0 的细节。
这一计划的目标,是在未来 5 年投入 15 亿美元构建开发者生态。具体扶持资源包括:
鲲鹏开发样机、昇腾训练卡、云服务代金券,OpenLab,培训与认证服务,开发者大赛,ISV 应用迁移技术支持,华为 FAE 开发支持服务,华为认证,ISV 营销活动与样板点支持等。
此外,华为也将围绕开发者学习、产品构建、产品上市三个阶段,分别设立 LGF(学习成长基金)/PDF(产品开发基金)/MDF(市场发展基金)三类基金。
具体到 ModelArts 2.0 上,不仅有羊毛可以薅——新用户注册,可以免费体验 40 个小时,华为云也推出了 ModelArts-Lab AI 实战营系列活动,来帮助开发者掌握人工智能实战技能,覆盖领域包括图像分割、姿态识别、活体识别、NLP 等等。
来自:
量子位(ID:QbitAI)