演讲实录丨华为云人工智能领域首席科学家田奇教授《通用视觉：探索·实践·沉淀》

8月29日至30日，由中国科学技术协会、中国科学院、南京市人民政府为指导单位，米斯云、南京市建邺区人民政府、江苏省科学技术协会主办的主题为“智周万物”的2020中国人工智能大会（CCAI 2020）在新加坡·南京生态科技岛举办。在30日大会主旨报告环节，华为云人工智能领域首席科学家、教育部长江学者讲座教授、IEEE Fellow 田奇教授为我们带来了题为《通用视觉：探索·实践·沉淀》的精彩演讲。

田奇

华为云人工智能领域首席科学家

教育部长江学者讲座教授

IEEE Fellow

以下是田奇教授的演讲实录：

在这里和大家分享华为在人工智能，特别是通用视觉方面的探索、实践及进展。

随着计算能力和通信能力的极大提高，人工智能进入到各行各业，从之前人工智能在局部应用的探索，到现在与社会环境协同发展、共同促进，将来人工智能也要落地各个行业，包括公共、教育、医疗、健康等。为这些行业的智能化升级过程中保驾护航，华为云在三大基础领域——计算机视觉、决策优化、语音语义方面做技术创新。

视觉主要是为了看懂这个世界、理解场景，视觉有很多研究的方向，如图像识别、内容审核和图像检索等。下面我会将华为在视觉方面的一些进展给大家做详细的分享；第二个决策优化是为了让机器学会思考和决策，希望以最小的输入获得最大的成本；第三个研究方向是语音语义，如果视觉看懂这个世界，决策优化是为了让机器学会思考和决策，语音语义就是为了让它听懂人类语言，与人类更好交互，为人类服务。

一、华为在视觉方面的研究

视觉有很多问题，基础的问题包括检测、分割、识别、重构等，我们把这里面核心的问题归结为数据、模型和知识方面的三大挑战。

人类对外部世界的感知，87%的信号来自于视觉信号，因此在社会当下非常希望机器拥有和人类同样的感知能力。这就是计算机视觉。

计算机视觉能做很多应用，像智能汽车、智能手机、无人驾驶、智能眼镜等。

视觉有很多基础研究，从二维视觉到三维视觉、视觉计算、数据生成、视觉+多模态等，后来进一步聚焦到数据、模型和知识的三大挑战。第一个，因为现在有大量的数据，如何从大量的数据中挖掘有效的信息，这是数据方面的第一个挑战；第二个是模型方面的挑战，尤其是在深度学习时代，我们通过设计神经网络来做识别，因此如何设计高效的视觉识别模式是第二个挑战；第三个，人工智能的未来是什么，怎么实现通用的人工智能？在视觉方面如何表达和存储知识，这是一个悬而未决的难题。

（一）如何从海量数据中挖掘有效信息

大家知道，深度学习非常依赖于数据标注，无论是业界，还是华为，数据标注成本都是一个痛点问题。为了解决这个问题，一个方法是数据生成，华为云不管是研究上，还是其他方面都做了很多的投入。

数据生成有数据扩增、用对抗生成网络GAN生成更多的数据、计算机图形学生成虚拟场景三个解决方案，从虚拟场景中得到数据来训练模型。

生成的数据主要应用领域包括智慧城市、智能驾驶等。在生成数据方面，2020年华为也提出一些对抗思想的方法，发表在ICLR 2020上面。

下面介绍我们最新的一个结果，即在数据生成方面，把知识蒸馏与自动数据扩增结合，提出一个在大规模图像分类数据集的一个领先的方案。相关论文请参考我们的ECCV 2020的论文Circumventing Outliers of AutoAugment with Knowledge Distillation（Wei,et al,2020）。

数据的另外一个方面，是多模态的数据。多模态的学习有很多挑战，如多模态的信息表示、模态之间的融合、模态的对齐、多模态的协同学习。我们认为，多模态学习是场景理解，是计算机视觉未来的一个主流方式，有很多的应用场景，如智能驾驶、智能多媒体等。

这里分享一下我们在ACM多媒体会议获2019的最佳论文提名奖的论文。多模态对话系统，叫做魔术模型，我们把这个结果用在图像选择、文本选择里都得到了较好的结果（Nie,et al,2019）。

（二）如何设计高效的视觉识别模型

这里有两个问题，一是如何设计神经网络模型；二是如何加速神经网络的计算。

深度学习刚开始的网络都是手工设计的，手工设计的网络慢慢进入一种瓶颈期，从2017年，尤其是2018年以后，自动网络架构搜索得到越来越多的关注。但自动网络架构搜索真的能够替代人工搜索吗？目前，其主要面临三个挑战，第一，搜索空间还是需要人工经验的定义；第二，待搜索的算子也是人工设计的；第三，搜索的网络与人工搜索的网络相比抗攻击性比较弱。

下面介绍2020年的一个工作，PC-DARTS——当前业界搜索速度最快的自动网络架构搜索技术，得到的结果是在DARTS系列上首次ImageNet完成搜索，与之前的MIT工作对比，搜索速度快了接近1倍，而且性能还有相应提高，目前代码已经开源(Xu, et al,2020)。

模型的另外一个方向是模型的小型化，模型加速。云侧大模型的发展也是如火如荼，但云侧的大模型无法适配端侧设备有限的算力。因此从2016年开始业界提出大量模型加速、模型小型化的解决方案。但是这些方案同样也存在着各种问题。第一个问题，在模型小型化的低比特网络实现，希望用低比特表示，从8比特网络、4比特网络甚至是1比特网络，但是目前这些网络的精度还是有限的；第二，如果把网络的权重、特征响应用不同的比特数来表示，目前这个方法对硬件实现并不友好；第三，目前很多新型算子还没有得到充分的验证，没有和芯片设计结合起来。

在今年CVPR2020，我们提出了一个加法网络。当前在CNN模型中有大量的乘法计算，我们希望这些乘法计算都用加法计算来代替，实现它的原理是用曼哈顿距离取代夹角距离，这样卷积计算无需乘法计算；同时使用8比特整数计算，对硬件实现更加友好，在计算功耗上具有明显的优势。

（三）通用智能

通用智能聚焦两个问题，第一个是如何定义视觉的预训练模型，相对来讲，视觉的预训练模型还不够成熟，里面还存在很多挑战性问题，这也是我们研究的一个重点方向；第二是如何通过虚拟环境学习知识、表达知识，并且存储知识。我们的通用视觉模型是希望为下游任务建立一个高效的初始化模型，为下游任务进行赋能，通过大规模的视觉通用预训练模型。

目前主流的学习范式有两种，一种是监督学习；一种是强化学习。监督学习需要海量样本，数据拟合无法泛化到不同子任务。强化学习需要不断地试错，缺少可重复性，可复用性及鲁棒性。我们认为学会推理预测是从感知走向认知的关键步骤。而自监督学习是通向常识学习的必经之路。

但是自监督学习在视觉上的应用还不够成熟。这里介绍一下在CVPR2019上通过一个拼图游戏完成的一个自监督学习任务。什么是拼图游戏？打个比方，把图像分成3×3的9个小方块，把它们的位置随机打乱，通过神经网络学习把它们复原。拼图任务改进了自监督模型，使网络能够处理任意拼图布局，更好地学习空间上下文提供的语义信息。在ImageNet上学到的自监督模型，迁移到Pascal VOC上在分类和检测上都达到很好的效果，这个工作的代码已经开源。

（四）知识

我们希望用虚拟的场景生成虚拟的数据，从虚拟数据中训练模型，同时希望在生成的场景中直接训练智能体。

现在的深度学习是监督学习的范式，对标注数据非常依赖，所以数据标注成本比较高。第二，数据标注有一个很大的问题，就是知识表达是不是准确？比如在无人驾驶中有大量的像素级语义标注，但是我们无法证明这样的标注对无人驾驶这个任务是最适合的。同时，数据标注可能会导致常识的缺失，人类对外部的理解大部分依赖于常识。针对这些问题，我们提出了从虚拟场景中生成数据来学习智能体的行为。

这是我们在CVPR2019利用虚拟数据学习控制无感知机械臂的一个演示。这里仅有一个机械臂和一个摄像头，但没有安装其他的感知设备，在生成的虚拟场景中给它提供训练的数据。因为是从虚拟的环境中收集的数据，所以标注代价几乎为零，同时可以融合强化学习，实现各种实际的任务。

华为云为保障我们的基础创新能力，提出了创新、开放和培养这样一个战略思维。我们可以从顶级论文看华为视觉的创新能力，在过去两年，在计算机视觉的三大顶会，CVPR、去年的ICCV和今年的ECCV我们团队在上面发表了近百篇文章，顶会论文数量进入世界第一梯队，也获得两篇最佳论文、一篇最佳论文提名。

之前提到图像的分类技术，真实场景数据噪声是比较大的，在弱标注场景下的图像分类，Google、CMU、ETH共同组织的WebVision大规模网络图像识别竞赛中，我们达到了82.97%的精度，取得了业界第一的成绩。这是我们的一些顶级算法，我们把它引用到智慧商超，比如把传统的门店上升到无人门店，如米旗蛋糕店。基于昇腾芯片加持和华为一站式人工智能开发平台，我们对米旗蛋糕无人门店商品识别率达到99%，商品识别的响应时间小于1秒，而且每天可以对模型进行更新。

手机的质量检查。华为手机的更新换代只需要半年到一年，大家都感觉很快，但背后华为在工艺和品控方面，对质检效率的提升做了大量的工作。华为终端的同事之前对手机的边缘、电池、摄像头模组等方面做了很多人工检测。但是肉眼检测会带来很多问题，比如容易误检和漏检，比较耗时间，平均大概要几分钟；而且人工的检测，由于疲劳，也会让设备的成品率下降。基于此，华为云做了这样一个人工智能视觉检测的模型，对电池、电芯等器件的外观进行检测，还有单板焊板进行检测，识别的成品率提升到现在的99.55%，也让员工的工作量下降48%。

银行保险方面。我们提出了一个OCR的解决方案，帮助新疆人保自动识别保险面单。首先提高了工作效率，同时因为能够处理单据中的一些文字错行、文字覆盖、盖章干扰等，也降低了对相关技术人员能力的需求；同时，整体系统处理的时间，从过去的分钟级别降低到秒级，提高了效率。

我们在图像检测分割方面最近也有一些进展，相对于图像分类，图像的检测和分割，是对图像中、高层的语义理解，比如检测输出目标的位置，分割物体之间的相互关系。在目前公认最权威的大规模目标检测数据集MS-COCO，我们自研的自适应数据扩增技术，不管是单模型，还是多模型，都打破了微软等公司多年的垄断。

华为云EI-Health医疗智能体，与华中科大、蓝网科技通力合作，对新冠疫情进行检测，过去依赖于专家的标注，现在可以自动识别，而且这套系统已经在各大医院成功部署。此外，对宫颈癌筛查的辅助诊断。大家知道，每分钟全世界有15个病人因宫颈癌而去世，在中国每年会有15万的宫颈癌病人，而相关的病理学家却有9万人的缺口。一个宫颈癌的病理照片有8 000到2万个细胞，如果让专家做独立的诊断，大概要耗时2小时，同时需要3个专家做独立诊断，也就是处理一张宫颈癌的病理照片需要6个小时。在这个方面，华为云和金域医学进行相关合作，人工智能的辅助诊断，效率提升5~10倍，而且敏感度和特异性分别提升到99%和80%，达到媲美一流中美医疗专家诊断的程度。

（五）多模态数据的处理技术

视觉的最后一个进展，是多模态数据的处理技术。之前图像的分类、检测、分割是相对独立的任务，真实世界它是多模态数据。比如无人驾驶中，既有图像输入，也有GPS输入，还有激光点云信号的输入。在目前世界公认最权威的大规模3D目标检测数据集之一NuScenes上，我们也取得世界第一的水平。

在深圳交通智能体，对深圳交通的红绿灯进行控制，我们通过分析实时车流量、车辆转向、行人流量等多模态数据，完成对交通信号灯的控制。深圳交通智能体上线后，在交通总流量相同的情况下，平均提高车速15%，平均的延误时间下降17.7%，大大提升了出行效率，保证了城市的高效运转。

二、人工智能在决策优化和语音语义的应用

上面介绍的都是我们在计算机视觉，尤其是在通用视觉上的一些进展，接下来介绍人工智能在决策优化和语音语义的相关案例。

在工业生产中我们一个主要的目的是为了减少材料浪费，降低成本，实现最大的收入。华为云提出了业界顶尖的决策优化方案，帮助企业用最小的成本提高产量。我们的决策优化方案用到华为的交通智能体，尤其是深圳机位智能分配上，提升了10%的飞机廊桥的靠桥率，相当于每年有超过400万旅客不需要再坐摆渡车，而且机位的滚动调整耗时仅需要10秒。

三、云语义

云语义发展私人订制化的语义服务，训练机器，自动学习，赋予机器认知、意识和推理能力。我们的语音语义团队在业内公认的数据集DiggScience和WSDM大赛中也得到语音语义最优。

基于华为云先进且成熟的语音语义解决方案，我们在WeLink上实现了有80个意图的语音助手功能，可以实现人和APP的语音交流，更高效地完成各种任务，提高用户的满意度和体验感觉。

前面介绍了我们在算法方面的一些探索，在行业中的实践，现在讲一下我们在平台上的一些沉淀。

对华为云来讲，主要就是这种ModeIArts，提供全栈全流程的AI开发能力。针对一站开发式人工智能开发管理平台，提供人工智能开发管理能力，同时结合华为在行业的长期积累，提供五大人工智能能力开发的专业套件，另外还有40多个行业高精度的算法。

在ModelArts方面来讲，为人工智能开发者提供从0到1的人工智能开发能力，具有效率高、门槛低、性能优、运维易等特点。

效率高，一站式人工智能平台，覆盖机器学习、深度学习、强化学习等，支持分布式并行训练，交互式Notebook，支持Python并发语言。

运维易，支持多厂商、多框架、多功能，使得ModelArts的运维变得相对比较简单。

ModelArts Pro，满足行业定制化需求。我们在行业中积累了10多种行业的知识，沉淀到了平台，供开发者参考借鉴。由于开放的生态，让人工智能开发者可以对模型进行快速的共享和交易；同时也支持灵活的部署方式，支持在线部署、边缘部署等，进一步加快了应用者在人工智能的部署和落地。

四、人工智能人才培养规划

人工智能人才，尤其是具备基础知识和交叉学科的复合型人才是人工智能行业落地的关键，下面介绍一下华为云人工智能人才培养规划。

人才短缺是人工智能走向产业纵深的关键，不仅是中国，全世界都在广泛地招募人才。2018年6月，教育部发布了《高等学校人工智能创新行动计划》，目的是达到科技创新、人才培养和科技成果转化等一系列具体的目标，到2020年要建设100个人工智能+X的复合特色专业，编写50本具有国际一流水平的本科生和研究生教材，建设50门人工智能领域国家级精品在线开放课程，建立50家研究院和交叉研究中心等。

国内外非常关注人工智能在基础和交叉领域的复合人才培养，比如卡耐基梅隆大学设置了人工智能学士的七类课程群。企业人工智能人才需求分层，对于企业来讲，需要1+X人才、卓越人才和拔尖人才。目前人工智能人才60%以上为硕士，各层缺口都较大。一些行业，如医疗、无人驾驶等，目前缺口巨大，非常需要校企结合，联合培养人工智能需要的系统人才、工程人才、算法人才等。

（一）华为云的人才培养规划

首先华为云人工智能成立人才培养专家指导委员会，华为提供产业导师、产业实践、产业课题、人工智能平台及算力、奖学奖教奖研金。

AI院长峰会作为该委员会的年度交流平台，每年大概在夏天举办一次，联合讨论华为云人工智能和高校合作人才培养的重点工作，并且对其中优秀的老师和学生进行表彰。

（二）人才培养子计划

1. 华为十百千学术计划

华为十百千学术计划中，十是指华为云将向全社会开放十大产业难题，每个课题大概奖励10到100万元，邀请学术界专家共同解决产业难题，助力人工智能的产业发展。百篇是指百篇经典论文的复现，是在华为人工智能开发平台ModelArts上进行复现。每篇论文的复现奖金大概1到5万元。千是指千篇顶会的论文激励，如果老师和同学们使用华为云AI开发平台ModelArts和HiLens发表论文，每篇大概奖励5 000到3万元。

2. 华为云人工智能产学研计划

目前华为云和国内40多所一流高校已经有合作，两个案例是清华大学和浙江大学的人才培养实践。华为云人工智能已经进入10类专业、六大类和25+门专业课程。

这是一些华为云与高校在科研创新场景的合作，比如与华北电力大学的输电线路智能巡检一体化平台，及时发现危机缺陷。

在人工智能方面的教材和图书方面积极参与教育部教材编写，在2020年的HC2020，就是9月华为全链接大会上也会发布ModelArts图书，之前与高校合作实践类教材9本，也积极参与教育部人工智能科技创新专家组新一代人工智能系列教材等的编写工作。

华为之前发布了沃土高校教研扶持计划，五年联合培养百万高校开发者，主要体现在教学和双创方面。在教学方面新增的是，如果在课程开发与设计上，把ModelArts做到课程设计里，每门课有2万元的奖励；同时对相关的授课老师，进行资助。

双创方面来讲，创新创业的同学们，我们提供互联网+大数据大赛的推荐，还给每个团队提供相当于价值10万元的人工智能云服务。

3. 人工智能俱乐部

我们会在每一个合作高校里成立人工智能俱乐部，支持校内的双创大赛、技术沙龙、专家大讲堂、技术创新课题等，每年为参与的高校俱乐部提供30万/校的资助。

4. 人工智能训练营

人工智能训练营包括人工智能基础课、人工智能大咖秀，之前很多老师也请到华为来给我们作报告，也举行人工智能的线下沙龙，每年举办人工智能的实战营。

5. 人工智能人才汇

人工智能人才汇，即面向全球招聘天才少年，引领创新。希望招聘有能力有意愿，愿意挑战世界难题的顶尖学生，培养他们成为我们未来技术的领军人物。对这些天才少年，我们会提供一对一导师辅导，帮助他们尽快融入公司，尽快地形成从0到1、1到N的一个很好的连接。对这些天才少年也会提供顶尖的offer。