鱼羊 发自 凹非寺 今年的华为,着实遭遇了不小的困难。 尤其是供应链,包括芯片方面的打击,让华为轮值董事长郭平坦承“的确对华为的生产、运营带来了很大困难”。 但命运跌宕之下,华为却仍在全联接的现场,传递出信心: “永远面向阳光,阴影就会被你甩在身后。” 华为也用具体业务的成绩、未来的投入,来证明这种信心并不仅仅是喊口号。 以华为云为例,郭平表示,云是释放算力的最佳平台,是智能世界的数字底座。而经过3年的持续努力,华为云目前已经在全球拥有23个区域中心,服务150万开发者。 而更能直接说明“未来”的,是在产品上的持续投入。 具体如何,从2020华为全联接大会压轴推出的ModelArts 3.0上,就可见端倪。 话不多说,一起来看。 ModelArts作为华为云AI开发平台集大成之作,可以提供包括数据标注准备、模型训练、模型调优、模型部署等AI应用开发服务。 在2018年推出之后不久,就刷榜斯坦福DAWNBenchmark。在图像识别(ResNet50-on-ImageNet,93%以上精度)的总训练时间上,以10分28秒的成绩,比第二名提速近44%,拿下当时的全球第一。 而在经过去年2.0版本的迭代之后,华为云ModelArts就已经进化成为甚至可以0代码完成模型训练、一键部署的全流程极简、专业的一站式AI开发管理平台。 那么今年,ModelArts 3.0还能有怎样的新突破? 在全联接现场,华为云人工智能领域首席科学家、IEEE Fellow田奇揭晓了答案。 田奇介绍,ModelArts 3.0作为面向AI在行业落地提供的AI开发平台,针对“如何用极少数据训练出高精度模型”、“如何降低企业应用AI门槛”、“如何解决企业对数据安全使用的顾虑”等等问题进行了探索和研究,并为此带来了四大全新特性。 现在,自动机器学习、小样本学习、联邦学习、预训练模型等等华为云长久以来积累的AI能力,都能够即插即用地部署于ModelArts平台,助力AI落地。 四大新特性EI-Backbone:AI开发新范式 首先,是通用预训练模型架构EI-Backbone的全新发布。 其目的是打造预训练模型+小样本微调的高效训练模式,全面提升行业AI落地能力和体验。 也就是说,EI-Backbone会通过提供通用预训练模型和行业定制化开发流程,使得成型的开发经验能够做到规模化复制,降低AI的使用门槛。 如果以NLP领域的预训练模型为标杆,那么EI-Backbone的长远目标,就是打造CV领域的BERT。 BERT之所以被称为「NLP新时代的开端」,不仅仅是因为诞生之初,就刷榜各大NLP榜单。更是因为,基于BERT预训练模型,只需要简单的迁移策略,就能让NLP模型在下游任务中获得良好的性能。 这无疑大大推动了自然语言处理领域的研究发展。 而EI-Backbone就致力于为CV领域的开发者复刻BERT的体验。 以医疗影像分割为例,过去需要成百上千例标注数据才能进行的训练,在EI-Backbone的加持下,只需要几十例甚至十几例标注数据即可完成,节省标注成本90%以上。 田奇介绍,过去需要大量专家经验和试错成本的模型选择和超参调节,通过EI-Backbone提供的全空间网络架构搜索和自动超参优化技术,都可以在无需人工干预的情况下快速完成,且大幅提升精度。 结合华为云的计算资源调配和数据管理,模型训练、测试、验收、部署的开发全流程,在加载EI-Backbone集成的预训练模型后,可以缩短到几小时甚至几分钟内完成,训练成本降低90%以上。 目前,EI-Backbone已经在10余个行业有了成功的案例验证,并且斩获10余个业界挑战赛冠军。围绕EI-Backbone,华为云也已经发表了100余篇相关论文。 相关模型架构会逐步开源。 联邦学习:打破数据孤岛第二个新特性,是ModelArts 3.0加入了联邦学习特性。 数据无疑是AI应用的基础,只有基于多样化的数据,才能实现AI智能感知。 但在实际的AI落地中,往往存在这样的问题:数据分散在不同的数据控制者之间,受限于隐私、安全等问题,这些数据并没有办法轻易打通,而是形成了一个个「数据孤岛」。 这就使得落地到实际产业中的AI算法训练效果受到了限制。 针对这个问题,华为云ModelArts提供联邦学习特性,用户各自利用本地数据训练,不交换数据本身,只用加密方式交换更新的模型参数,就能实现联合建模。 对于AI开发而言,有丰富数据作为基础,完成模型训练,并不意味着大功告成。 模型性能的评估和调优同样是一项重要,且对开发者自身经验要求很高的工作。 而ModelArts 3.0在这一环节中提供的特性,是AI智能评估。 其模型评估功能,是在得到首次训练的模型之后,将模型推理结果、原始图像和真实标签送入模型评估模块中。 这个模块会从数据、模型两个方面对模型的综合能力进行评估,评估指标包括精度、性能、可信度和可解释性: 在性能方面,ModelArts 3.0能提供算子级别的时间、空间消耗统计分析和多种整体的性能指标,并且针对模型的表现给出相应建议,如模型量化、蒸馏等; 在可解释性方面,ModelArts 3.0能提供热力图,用以展示模型做出推理判断所依据的区域; 在可信方面,ModelArts内置多种模型可信相关评测方法,能提供多角度模型安全能力评估指标,并依据当前模型表现给出相应的防御建议。 最终,评估模块会针对可能存在的问题输出一些改进模型能力的诊断建议。 也就是说,Debug这样繁重的工作,ModelArts 3.0也能给它自动化了,并且还是对数据到模型训练整体过程的全面评估。 弹性算力+大算力,普惠企业AI落地除了自动化开发方面的能力,作为一站式AI平台云服务,ModelArts当然也提供了算力支持。 并且,为了更好地支持超大算力需求的AI研发,华为ModelArts平台在集群规模,任务数量,以及分布式训练都做了针对性的优化。 不仅能够管理上万的节点,更好的支持大型训练任务需求。通过优化服务框架,ModelArts平台还能支持10万级别的作业同时运行、支持万级芯片的大规模分布式任务。 并且,为了帮助企业在AI落地过程中进一步降本增效,ModelArts 3.0还具备弹性训练这一核心能力。 也就是说,可以根据模型训练速度的要求,自适应匹配最佳资源数。 具体在产品上,ModelArts提供两种模式。 一是Turbo模式,可以充分利用空闲资源加速已有训练作业,在大多数典型场景下加速效率大于80%,训练速度提升10倍,并且不会影响模型收敛精度。 二是Economic模式,可以通过最大化资源利用率,给开发者提供极致的性价比,在大多数典型场景下可以提升性价比30%以上。 领先分布式加速比能力所以,ModelArts现如今的能力,应该如何评估? 不妨直接用数据说话。 ModelArts平台支持10万级别的企业任务同时运行,支持10万级别的用户规模同时使用。 而实现大规模集群分布式训练的关键能力,要看分布式加速比。 在MLPerf benchmart上的测试结果显示,在512芯片的集群规模下,华为云ModelArts成绩为93.6秒,优于英伟达V100的120秒。 MLPerf benchmart是学术界、产业界合作打造的一个通用基准,用于衡量机器学习硬件、软件和服务的训练、推理性能。 ModelArts的落地实战纸面上的数据,还只是一部分。 实际上,在能源、汽车、政务系统、教育、工业机器人等10余个行业中,华为云ModelArts已经实现了160+个落地案例。 比如在下面这只国产机器狗身上,就有ModelArts赋予的AI能力。 这只机器狗名叫“绝影”,由杭州云深处科技有限公司出品。 |