HP感知世界杯足球(前微软总部科学家郭彦东加盟小鹏汽车,担纲AI视觉和感知)

李根 发自 凹非寺

量子位 报道 | 公众号 QbitAI

太阳底下无新事,趋势变化不是无迹可寻。

一次次科技转关大同小异,无非钱动人动,最终潮水汹涌成势能。

2017年何小鹏由投资人亲任董事长,小鹏汽车便开启钱至人至加速度,上周又刚官宣一轮40亿元新融资,整体估值超250亿元。

同时,隐而未宣的是又有AI人才加盟。

这一次,微软计算机视觉科学家郭彦东,从微软总部而来,任职小鹏汽车AI产品部计算机视觉首席研究员。

郭彦东将承担的,是小鹏智能车AI视觉及感知相关的研发到应用。

这位80后科学家拿什么hold住?

HP感知世界杯足球(前微软总部科学家郭彦东加盟小鹏汽车,担纲AI视觉和感知)

小鹏汽车AI产品部计算机视觉首席研究员郭彦东

郭彦东其人

虽然年轻,但郭彦东却是这波AI浪潮中最“生逢其时”的一代人。加入小鹏汽车前,郭彦东在AI及CV相关的研发已有14年之久。

郭彦东本科和硕士均学成于北京邮电大学,曾在汤姆森研究院(后更名为Technicolor)和中国移动任职,参与过中国第一代甚低码率可视电话的研发,也是中国移动彩信,手机电视,手机阅读等等企业标准/国家标准的制定者之一。

其后拿到普度大学全额奖学金赴美读博,师从美国工程院院士Jan P. Allebach与Charles A. Bouman。博士期间多项视觉领域的研究成果作为关键技术被应用在GE、HP等公司。

从博士毕业起,他就成为微软美国总部研究员,专注机器视觉和图像处理技术,是微软智能识别服务的关键贡献者。

在微软期间,郭彦东在计算机视觉,人脸识别上的研究成果被广泛应用在微软图像搜索(image.bing)、人工智能云服务(Microsoft Cognitive Service)、情感计算小冰,知识图谱(Microsoft Knowledge Graph)等微软的视觉相关产品中。

特别是2016年与2017年,郭彦东将大数据、知识图谱,以及深度学习的方法有机融合在一起,并和同事一起发起组织了微软百万名人识别竞赛MS-Celeb-1M——后来被业内称为人脸识别“世界杯”,在业界影响巨大。

更关键的是,2016年开始,郭彦东领导了微软互联互通车项目的视觉感知部分,致力于将微软的视觉技术推广到汽车领域,主导研究开发了基于视觉的车内、车外感知功能。

也是如此专注的履历,郭彦东成为何小鹏全球挖角之旅中的重要专家人选。

为何要挖CV科学家?

在小鹏汽车,郭彦东一样名校博士、履历闪光的人都被称作专家。既是出于人才的尊重,也为体现产学研一提的决心——不再是科学家科研、工程师落地的二分法模式。

而在此体系中,视觉和感知,是小鹏汽车AI研发平台下一个极其重要的业务方向。

小鹏汽车从创立之初,就以“智能车”为目标,而视觉与感知是智能的基础与前提。智能化就是真正的理解车外与车内的场景,

HP感知世界杯足球(前微软总部科学家郭彦东加盟小鹏汽车,担纲AI视觉和感知)

自动驾驶L0-L5

小鹏也对外多次介绍过,这将是一条从L2到L3,再最终迈入L4、L5的自动驾驶实现之路。

实际上,当前见怪不怪,有些辅助驾驶功能,作为独立模块,多可以有供应商提供了。

但这家造车新势力宁愿走得更难,希望自建AI视觉和感知研发,以此将AI用户体验与车辆安全熔于一炉,从而打造企业产品核心差异化。

郭彦东举例说,如将智能感知与决策把独立的辅助驾驶功能有机结合起来,才会打造出真正的智能车,才能够提高用户的体验。

更具体而言,一方面是车外的一些感知,如天气、场景、以及事件的识别和预测。

HP感知世界杯足球(前微软总部科学家郭彦东加盟小鹏汽车,担纲AI视觉和感知)

小鹏汽车G3车顶上的360°摄像头

“一个司机在路上看到一辆校车停在路边,车门打开了,他会知道可能有小朋友从车里跑出来。但是什么时候我们的辅助驾驶功能车,搭载了智能模块以后也能做出类似的判断呢?这才是我们乐于看到的事情。”

车外场景之外,车内的感知对用户体验也同等重要。

如乘客、司机的识别,通过面部状态监控对注意力、情绪的识别,对安全和体验都尤为关键。

在郭彦东看来,面部监控对于L2到L3的跨越非常关键。

L2级辅助驾驶,需要手不离方向盘,以保持对车控制;而L3则手可离方向盘,但是需要用户随时接管方向盘。让用户随时能够恢复接管的前提就是需要知道用户的状态,提醒用户保持注意力集中。有统计数据表明,在辅助驾驶的情况下,用户反而会倾向于降低关注度。

“如果在驾驶过程中,让传感器实时感知,能够更好理解司机状态,不断做出反馈,那L2到L3之间过渡的核心问题便能得到安全性高体验性地解决。”

如此方案,听起来容易理解,但做起来其实并不容易。

小鹏汽车内部,已形成三步走共识。

HP感知世界杯足球(前微软总部科学家郭彦东加盟小鹏汽车,担纲AI视觉和感知)

AI Car

智能车系统三步走

按照数据量的三阶段:冷启动,系统模型训练,最后量产车场景迭代,将AI智能车系统分三步走。

第一步,无车/少车情况下,数据冷启动。

郭彦东认为可以依靠4方面,1)互联网大数据、2)仿真大数据、3)自有车队或测试车队大数据,4)中国真实用户大数据。

这位曾经参与微软Bing图片搜索核心技术研发的科学家说,互联网数据量非常之大,对早期算法的演进意义重大。

但也不是“完美无瑕”,毕竟这部分数据可能跟无人驾驶、智能车需求的数据分布不尽一致,标注也存在困难,需要用迁移学习的方式将互联网的结构化信息转移转换,赋能于车。

于是为了验证迁移学习的效果,同时也得到更多,更真实的数据,也需要关注仿真大数据、自有车队数据,以及用户真实数据等其他3个渠道。

总之,数据是深度学习之关键,也是智能车系统模型优劣的关键。

数据经过冷启动阶段,接下来就是搭建AI平台,训练深度学习模型

郭彦东强调,在智能车的场景中,往往最有价值的就是长尾(long-tail)数据。

即那些低频场景下才能产生的数据,尽管长尾数据需要的种类、类别、数量都会非常多且有挑战,但越多长尾数据收集,就越能让智能车适应更多场景。

这也就要求需要有一个快速处理长尾数据能力的AI平台。业界也有很多相关的努力。

比如微软的custom vision,郭彦东博士本人就曾参与该项目的核心研究工作,可以在样本数很小的情况下,用非常短的时间,得到很准确的模型的。

虽然纯互联网系统平台与车用场景并不一致,技术上还有诸多挑战,但郭彦东坚信能克服,并在量产车场景下实现更快,更精准,能够处理长尾数据的智能闭环迭代。

作为整车厂,从无到有造车自然不易,但也是吸引郭彦东的核心“优势”之一。

有了数据,有了AI模型训练平台,还需要更多数据帮助迭代,而量产车正是最独一无二的场景。

此前在Uber和特斯拉发展自动驾驶时,业内便对这种路线颇为看好,核心原因之一便是有时刻不停地真实场景下的量产车“帮助”数据迭代和模型迭代。

所以郭彦东博士认为,一旦小鹏量产车上路,虽有更大更多数据反馈方面的繁重工作,但每一次都会让智能车系统更出色,迭代升级会更快,用户的反馈也能帮助智能车各项功能的调校。

这让AI视觉科学家们渴求。

更何况,比起在美国造车,中国有更广阔的市场空间和更独特的路况场景及驾驶行为。

HP感知世界杯足球(前微软总部科学家郭彦东加盟小鹏汽车,担纲AI视觉和感知)

回国造车

郭彦东坦承,回国参与一番事业,是每一个中国AI人才的梦想。

而且小鹏汽车所承载的市场机遇,前所未有。

有数据统计,美国汽车千人保有量是910辆,但中国千人只有154辆。

加之经济发展势头,未来5-10年的增长机遇,空间和趋势不言自明。

郭彦东说,想要做出更具影响力的产品,让所学技术被最多人使用,就要跳上最富潜力和前景的航海船。

小鹏汽车,对他而言就是这艘AI大航海时代的船。

当然,郭彦东也心怀教育传承之心,虽然他已同时是北京邮电大学和电子科技大学的兼职教授,但他希望能带领更多年轻人躬行实践,将所学化为所用。

他说在小鹏汽车还有一项重要使命——招募更多年轻有为的人才。

从业务划分,他认为自然可以分出个车内智能车外环境感知关键视觉技术模块开发模型优化与融合的招聘方向。

但更重要的是年轻干劲足学习成长快,而且有自主自研的决心

郭彦东说,拿来改和用很简单、坚持自研很难,但最难的路也最考验基础、最容易造就创新。

注:中美汽车保有量数据来源

【1】“Vehicle Statistics: Cars Per Capita”. Capitol Tires.

【2】 “环境保护部发布《中国机动车环境管理年报(2017)》”. 中华人民共和国环境保护部. Retrieved 2017-11-01.

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态