旷视首席科学家孙剑去世,他有哪些成就?

何梁何利基金2019年度颁奖大会近日举行,旷视首席科学家兼研究院院长孙剑荣获何梁何利基金“科学与技术创新奖”。

1994年,金融家何善衡、梁銶琚、何添及利国伟各捐款一亿港元成立何梁何利基金,钱学森曾在同年获得基金“科学与技术成就奖”,2006年基金增设“科学与技术创新奖”,后来不断改革成长为中国非政府奖项中的佼佼者,堪称中国的“诺贝尔奖”。

2019年,经基金评选委员会筛选,孙剑作为促进中国科学技术事业发展的杰出贡献者获颁“科学与技术创新奖”

获奖对于孙剑来说,似乎已是家常便饭,就在刚刚结束的计算机视觉顶会ICCV 2019上,孙剑率队取得了全球最权威通用物体检测挑战赛COCO的三个赛项冠军,实现了COCO三连冠的“伟业”。

1993年,孙剑考入西安交通大学,2003年毕业于西安交通大学人工智能与机器人研究所,先后获得本科、硕士和博士学位,毕业后加入微软亚洲研究院至2016年,任至首席研究员;年在微软美国研究院任合伙人级研究主管。其主要研究方向是基于深度学习的图像理解、人脸识别、和计算摄影学。2016年7月,孙剑加入旷视担任首席科学家和研究院长。

科研,对于孙剑来说,既是学业,也是事业。2015年,孙剑带领的团队斩获了图像识别国际大赛五项冠军(ImageNet分类,检测和定位,MS COCO检测和分割)。这并非一帆风顺,为了解决这一问题,孙剑与他的团队从对问题的重新定义角度出发,研发出了深度残差学习的方法,解决了“网络越深,错误越多”这一矛盾。在2015年的国际大赛中,他们的“图像识别的深度残差学习”系统达到了152层的深度,错误率仅有3.5%,而普通人眼的错误率约为5.1%。

“抗击打能力很重要,因为挫折和瓶颈太多了,做每一个实验前,我们都做好失败的思想准备,但若不尝试,就注定失败。”孙剑说。毕业十几年来,孙剑累积在CVPR、ICCV、ECCV、SIGGRAPH、PAMI五个顶级学术会议和期刊上发表学术论文100+篇,Google Scholar引用100,000+次,H-index 85。

孙剑于2009和2016年两次获得CVPR计算机视觉年会的最佳论文奖,其中,2009年最佳论文奖是亚洲人首次获此最高荣誉;2016年最佳论文“深度残差网络”是世界首个上百层的深度神经网络,并应用于AlphaGo Zero中。

2010年,孙剑被美国权威技术期刊MIT Technology Review评选为“全球35岁以下杰出青年创新者TR35”。2016年,孙剑获得2016年度中华人民共和国国家自然科学二等奖。2018 年5 月 4 日,科技部公示 2018 年第一批国家重点研发计划 6 个重点专项的立项清单,孙剑担任变革性技术关键科学问题专项“下一代深度学习理论、方法与关键技术”项目负责人。2019年1月21日,西安交通大学成立人工智能学院,孙剑担任首任院长。

孙剑有一套颇有意思的“神鬼”论,来诠释科研过程中研究与实践的关系。“既要做鬼,也要做神。”这句话是孙剑上学时的老师所讲,他一直铭记在心。“做神”是指基础问题研究,“做鬼”是指解决实际问题 。

“神”与“鬼”,在顺序上的差异对科研有重要影响。孙剑在微软亚洲研究院时师从当时的院长沈向洋,而他的做法是不强调那个在先。即便是“先鬼后神”:出现实际问题,先以“鬼”的做法,不求理论做出结果;而成功之后,再回到“神”的思路,反过来推理其背后的原理,往往对问题会产生全新的认识,这样的作风也极大地影响了孙剑。

孙剑说,“先神后鬼”还是“先鬼后神”因人而异,但是一定要“神鬼兼顾”,只有综合经验和理论,才能在科研路上越走越远。 北京商报记者 魏蔚

“特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。

  6月14日,旷视发布讣告称,旷视首席科学家、旷视研究院院长孙剑博士因突发疾病抢救无效,于2022年6月14日凌晨去世。

  孙剑分别于1997年、2000年和2003年获得西安交通大学学士、硕士和博士学位。随后,加入微软亚洲研究院,从事计算机视觉和计算机图形领域的工作。2010年曾被MIT Technology Review评选为“全球35岁以下杰出青年创新者”;他及其团队的研究成果被广泛应用在微软Windows、Office、Azure、Bing、Xbox等产品中;AlphaGoZero中的核心技术ResNet,也有孙剑的贡献。

  2016年7月,孙剑加入旷视,担任首席科学家和研究董事总经理。据了解,旷视是一家聚焦物联网场景的人工智能公司,以物联网作为人工智能技术落地的载体,通过构建完整的AIoT产品体系,面向消费物联网、城市物联网、供应链物联网三大核心场景提供经验证的行业解决方案,实现人工智能的商业化落地。

  旷视与云从科技、依图科技和商汤科技并称为“AI四小龙”。5月16日,上交所科创板披露信息显示,恢复旷视发行注册程序,旷视继续推进上市进程,有望在2022年内实现挂牌。(记者卜叶)

原标题:旷视发布讣告:首席科学家、研究院院长孙剑去世

孙剑从视觉智能、计算机摄影学以及AI计算3个方面介绍了计算机视觉研究领域的变革。

AI科技评论按:7月12日-7月14日,2019第四届全球人工智能与机器人峰会(CCF-GAIR 2019)于深圳正式召开。

峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,深圳市人工智能与机器人研究院协办,得到了深圳市政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会,旨在打造国内人工智能领域极具实力的跨界交流合作平台。

7月14日,「智慧城市·视觉智能」专场正式拉开帷幕,本专场全面围绕“未来城市级视觉AI的发展方向”这一主题展开。

会上,旷视首席科学家、研究院院长、西安交通大学人工智能学院院长孙剑带来了题为《深度学习变革视觉计算》的精彩分享。

孙剑从视觉智能、计算机摄影学以及AI计算3个方面介绍了计算机视觉研究领域的变革。

他首先回顾了深度学习发展历史,深度学习发展到今天并不容易,过程中遇到了两个主要障碍:

第一,深度神经网络能否很好地被训练。在深度学习获得成功之前曾被很多人怀疑,相比传统的机器学习理论,深度学习神经网络的参数要比数据大10倍甚至上百倍;

第二,当时的训练过程非常不稳定,论文即使给出了神经网络训练方法,其他研究者也很难把结果复现出来。

这些障碍直到2012年才开始慢慢被解除。

孙剑认为,深度学习和传统机器学习最大的差别是,随着数据量越来越大,使用更大的神经网络就有可能超越人类性能。

而具体到计算平台上,目前包括云、端、芯上的很多硬件上都可以部署智能,技术发展趋势是如何自适应地根据计算平台做自动模型设计。在这方面,旷视提出了Single Path One-Shot NAS的模型搜索新方法,它分为两步:

第一步是训练一个SuperNet,是一个超网络,包含我们想搜索的子网络,先训SuperNet所有的权重;

第二步是搜索Sub-Nets子网络,好处是第二步不需要训练,非常高效。整个模型搜索时间只是正常训练时间的,提供了各种计算机视觉API,服务了全世界的开发者。

我们另一个产品是FaceID.com,它是目前最大的第三方身份认证平台,由于它远超人类的能力,目前服务于包括互联网金融、银行客服、交通出行等领域。

上述讨论的产品主要应用在云上,不用太考虑计算速度和神经网络的大小。云端模型的目标是突破认知边界,看我们能做得多好。

但是在线下场景,很多应用需要在移动端或手机上运行。在移动端这个计算平台上,有两个代表性的神经网络设计可以参考:

ShuffleNet有V1和V2版本,核心是提出了一套设计原理:比如让卷积更平衡;尽量不要产生分支;降低整体结构的碎片化,避免逐元素操作。

由此旷视助力国内全部一线手机厂商,做出了第一款2D人脸解锁手机、第一款3D结构光人脸识别解锁手机、第一款红外人脸解锁手机等。

随着端上对功耗要求更低、面积体积更小,所以需要进一步研究如何把神经网络在芯片上高效运行。

因此出现了以低比特表示为代表的一系列工作,包括DorefaNet(旷视首先提出),在低比特运算方面,这是第一个提出将权重、激活向量、和梯度都进行低比特化的工作。

在芯片上,比计算最大的问题是内存访问带宽受限,需要内存访问量很大程度压下去,才可能高效运行。

这是我们在2017年推出的第一款基于FPGA的智能相机,我们把DorefaNet放在智能相机里。

2018年,我们把DorefaNet放在了一颗我们与合作伙伴联合研发的ASIC芯片上,提供了比FPGA高非常多的性能。

它不但可以用在手机上,还能用在实时的自动化场景中。右上图是AGV,用来搬运货架或物品,它有两个摄像头,朝下和朝前看,分别做车的导航和避障,类似室内无人车。

摄像头是机械臂的眼睛,它在搬运物体需要实时识别箱子在哪里,在哪里抓取箱子。在自动化流程过程中需要高效、高速地在端上做智能计算。

用了这些芯片的计算方法,可以应用到非常多的智能硬件上。这张图是都是旷视自研的硬件。

在神经网络设计的最新研究方面,目前很热的趋势叫AutoML或者NAS。这是一个很好的网站(automl.org),大家可以在这里看最新的文章。

NAS的问题核心是解一个嵌套的权重训练问题和网络结构搜索问题。

这个问题非常难,需要非常大的计算量。最早Google用增强学习或演化计算方法降低计算量,但计算量依然非常大。

最新流行的方式是用权重分享的方式,比如用Darts或ProxyLess等工作。我们旷视今年年初推出了Single Path One-Shot的新方法,分为两步:

第一步是训练一个SuperNet,这是一个超大的网络,任何子网络是我们想搜索的网络。我们先训SuperNet所有的权重;

第二步是做对SuperNet采样其中的子网络,好处是这一步不需要训练,非常高效,训练时间是正常训练时间的1.5-2倍,可以得到非常好的效果。目前在多个测试集上得到了最好效果。

我们的方法不但可以做图像分类,也可以做物体检测。

我们的方法还可以用来做模型简化(Pruning),同样可以用SuperNet的方法,先训一个PruningNet,它相当于一个SuperNet,由PruningNet生成很多子网络,得到很多很好的Pruning的效果。

以上是今天的第一部分,说的是视觉智能,我们从Feature的功能化定义,到走向模型的设计,再走到现在的模型搜索

第二部分,我想分享以前做了很多年的研究方向——计算摄影学。除了计算智能,计算机视觉中还有一个问题是给输入一个图像,输出是另一个图像。从输入质量比较差的图像(比如模糊、有噪声、光照不好)恢复更好的图像,这就是计算摄影学,也是目前研究很活跃的方向。

计算摄影学以前是怎么做的?这篇(上图)是我们2009年的Dehaze去雾,引入黑通道先验并结合雾的物理产生过程来恢复没有雾的图像,效果非常好,并获得了CVPR 2009最佳论文。

这是我们以前和同事一起做的(上图),如何从一张模糊图像和噪声图像恢复成清晰的图像,这里用了很多传统的反卷积方法。

这是另一问题,被称为图像抠图:左边是输入,右边是输出,目的是把前景精细分离出来。

这是我和今天第一位讲者贾佳亚教授当年联合做的一篇文章(上图)。

这是我和贾佳亚合作的第二篇文章(左上图)。一张图上缺失一部分或者想移除一个人,我们通过交互的方法,上面画一些线;后来我们又利用Patch自然统计的方法,能够做的更好。

总结一下传统的计算摄影学方法:“八仙过海”,每个问题需要寻找不同的假设,每个问题都要单独的去建模和求解。

不同的研究员有不同的方法,好处是你有能力的话可以做出非常有意思的方法,坏处是每一个方法都要独立设计。

今天的深度学习的方法是抛弃了以前的做法,不需要做任何显式的假设,通过全卷积的Encoder-Decoder输出想要的图像。

举个例子,关于Image Matting问题,今天的方法是:通过一个多任务的网络,可以直接输出Matting的结果,非常细的毛发都能提取出来。我们的工作在图像Matting最大的两个benchmark上都排名第一。

Matting不光可以做图像合成,它还可以用单摄像头就拍出像单反一样的效果。

还有一个变革是这对相机里面的图像信号处理器ISP(Image Signal Processor), 上面是传统的图像ISP和图像信号处理流程,后面是AI-ISP,用一个神经网络来做。

左边是之前,右边是之后,AI-ISP可以得到非常好的降噪效果和高质量的图像。

这个方法获得了今年CVPR图像降噪的冠军,同时我们将这个方法应用在OPPO今年最新的旗舰手机OPPO Reno 10倍变焦版的夜摄超画质拍摄技术上。

最后我想分享我们在计算上的变革。

左边传统的冯诺伊曼计算架构,服务了我们很多年。但随着数据的日益增大,出现了“冯诺伊曼瓶颈”,指内存和计算单元之间搬运数据的瓶颈。

右边是今天神经网络做训练、推理的方法,它突破了这个瓶颈。因为神经网络计算非常简单,基本上只包含向量和矩阵之间的操作,可以避免很多判断和分支,用大规模并行的计算方式消除瓶颈。

虽然摩尔定律慢慢消失了,AI计算能力反而在超指数增长,从2016年10 TFLOPS的算力,现在到几百的TFLOPS。

前期带来的变化是从以前的大规模计算CPU Cloud(大盒子)迁移到了 GPU Box(小盒子)。但是大概2015年后,大家发现这些小盒子也不行,因为我们现在用更大的模型,我们今天在ImageNet上的模型比我们2015年用的大10倍都不止。另外,很多人一起工作时的每人一个小盒子的效率是非常低效的。

在模型大小方面,物体识别目前最权威的比赛是COCO,2017年我们得到了3项冠军,随着我们更大的模型,效果越来越好。2018年我们有更大的模型,拿下了4项COCO冠军。

这么大的模型,在一个小盒子里是不行的。2018年我们提出一个方法MegDet,结论是你可以用多个计算单元,可以把训练速度非常高效的提高,几乎是线性速度的加速,性能更好,这是模型的变化,是第一个方面。

数据的话也会越来越大,这是旷视和北京智源人工智能研究院共同推出的Objects365,第一阶段开源超过1000万的标注框,这是目前世界上最大的检测数据集,不光是数据大,可以真正学到更好的Feature,这是第二方面。

第三方面,如果你的数据非常大无法放在小盒子里,必须放在中心。带来的问题是,如果我们同时训练,传输是很大的问题,

于是,在2015年之后,我们又从小盒子又回到大盒子,但这个大盒子是是GPU或者TPU Cloud。

据我所知,旷视是所有创业公司中唯一一家自研深度学习引擎并且全员使用的公司。引擎之下是计算环境,包括硬件管理,包括计算存储管理、模型训练支持等。

最后是自动模型搜索,也是在我们引擎中。它需要用大算力才可以把最好的模型搜索出来。

以上是我今天的分享,谢谢大家!

我要回帖

更多关于 中国科学院院士著名核物理学家 的文章

 

随机推荐