在 2020 年 CES 结束之后,陆续有多家国内外媒体报道了一家名为“铂岩科技”(RayShaper)的中国初创公司,他们在 CES 上展出了一款智能摄像机 RayShaper Bee,这款摄像机受到包括 CNBC、CNN、Bloomberg、CCTV2 在内的多国权威媒体的高度关注,还被 IEEE Spectrum 评选为 CES2020 十大最佳新发明(gadget)之一。
那么,Rayshaper Bee 到底有什么新奇之处呢?
它是一套可自由组合的摄像机阵列,不同于其他无法自由组合的摄像机阵列,Rayshaper Bee 依托背后的一套智能摄像系统,通过算法将阵列中不同摄像机拍摄到的信息实时地融合在一起,不仅实现了前所未有的超高分辨率,通过算法的实时配置、控制和信息融合,它还可以提供超大动态范围拍摄、沉浸式体验、3D 建模、自由视角观看、智能视频个性化编辑等多种颇具开创性和想象力的智能功能。
图 | (从左往右)铂岩科技 CEO、IEEE Fellow、清华大学温江涛教授,世界知名物理学家、瑞士苏黎世联邦理工学院院长 Joel Mesot 教授,世界知名信号处理专家、IEEE Fellow、瑞士洛桑理工学院院长 Martin Vetterli 教授,铂岩 CTO、IEEE Fellow、JPEG 标准组织主席、瑞士洛桑理工学院 Touradj Ebrahimi 教授(来源:铂岩科技)
可自由组合的智能摄像系统
吸引大众眼球的这款摄像机阵列外形像蜂巢,单个摄像机平面呈六边形,可以用不同数量、不同配置的摄像机组合成一个相机阵列。这种摄像机阵列利用智能算法,视频帧率下实时将相机阵列的海量数据融合成可以满足专业应用的超高分辨率视频,并支持多种呈现形式和多种智能功能,提供前所未有的视觉体验和应用效果。
根据 RayShaper 的官网显示,这套摄像系统可提供十亿像素的等效分辨率,比最先进的单镜头相机系统高 2 个数量级。RayShaper 在接受外媒采访时表示,该系统可以将远处模糊、失焦的物体变成清晰、高分辨率的图像。
从以上视频可以看出,相比于普通的相机,RayShaper Bee 能在更远的距离里拍摄到动态范围更大的、清晰度更高的图像。
RayShaper Bee 在捕捉 “大场景、小细节” 上的出色表现,也意味着它未来有可能在诸多场景的应用中脱颖而出,比如田径比赛、滑雪这样大场景的动态拍摄,比如野生动物监控等安防监控场景,甚至可以用于自动驾驶 ADAS。
我们不得不提到的,还有 Rayshaper Bee 可自由组合的特性。基于自由组合,未来就可以根据不同的实际场景需求进行便捷的定制和裁剪,相对低成本、更灵活地实现子弹时间、复眼视觉、高清视觉等视觉体验和应用。
普通相机用到的传统的光学成像技术,大都基于单目视觉原理。而 RayShaper 更像是一种复眼成像技术,采用类似于昆虫眼睛的仿生结构,通过神奇的复眼算法有机组合多个单目镜头,呈现一个和单目成像体验一致、同时具有超高分辨率的画面,实现宽、远、清的拍摄。
图 | RayShaper Bee(来源:IEEE Specturm)
“尤其在一些没有脚本的视频拍摄中,通常的拍摄方式主要是依靠摄像师的直觉来捕捉有意思的镜头,但这往往会错过一些精彩瞬间。”RayShaper CEO 温江涛在接受媒体采访时表示。利用组合摄像头阵列和算法,一场大型的 8k 赛事可以智能剪辑出很多 4k 或者 HD 的视频。
革新视觉信息处理的基本架构
“一个挑战在于,摩尔定律的终结已经无法满足现代应用对分辨率越来越高的要求,另一方面,尽管计算机视觉需要大量的数据,但现有的很多数据不是给机器学习看的”,温江涛说,“因此,用于机器的摄像机确实需要一种新型的图像传感器,可以直接把光子转换成计算机视觉任务。”
抛开相机分辨率、处理器本身的瓶颈不说,传统的计算视觉主要依赖于传感器和处理芯片的组合,这种 “感”“知” 分离不但造成计算视觉运算能耗过高,同时过高的延时也会带来很多应用层面的障碍。
目前来看,单方面升级处理器并不能从本质上解决问题。过去对图像的理解停留在像素,对视频的理解停留在帧,RayShaper 想到另一条基于生物视觉的开创性的思路,可以用一种新的视觉信息表现形式将 “感”“知” 融合,用更有效率的新架构呈现视觉信息,同时兼顾质量、能耗和成本。
图 | “感”“知”分离与 “感”“知” 融合(来源:RayShaper)
RayShaper 提出了 VPU 的概念,需要提到的是,VPU 一般会让人想到 Video Processing Unit,但在这里其实是 Visual Perception Unit,即视觉感知单元,而非视频处理单元。从原理来看,这似乎更贴合生物视觉的处理方式。
VPU 是由大量可以直接在本地处理光子信息的处理元组成的,目前需要多个芯片才能完成的任务,或许一块 VPU 就能实现。这样一来,功耗、延时和芯片面积的表现一定会比现有芯片高出许多。
据外媒报道,RayShaper Bee 的价格仍在浮动,目前,一个有三四个摄像头的阵列价格大概在 5 万美元左右。“这个阵列可以使用专业的摄像机和传感器,支持专业级应用对工作环境、镜头、配件的支持。对于个人消费者,我们也有消费级的相机配置。”温江涛说。
图 | 铂岩科技 CEO 温江涛向 CNN 记者介绍 RayShaper Bee(来源:铂岩科技)
RayShaper 成立于 2017 年,团队由来自清华大学的温江涛教授担任 CEO。他于 1996 年在清华拿到博士学位之后,在美国从事十余年多媒体通信和网络的研究及标准制定工作。随后回母校计算机科学与技术系任教授。在多个国际学术组织任职,是 IEEE Fellow,拥有数十项国际专利和多项产生了深远影响的研究成果。
瑞士 EPFL 的 Touradj Ebrahimi 教授担任董事长和 CTO。 Touradj Ebrahimi 是 JPEG(Joint Photographic Experts Group , 联合图像图形专家组)的召集人,IEEE Fellow, 在多媒体信号处理、图像和视频处理方面资历颇深。
清华大学研究院韩宇星教授担任 COO,韩教授自 2011 年从 UCLA 博士毕业后,先后任职于美国高通,美国思科和苏黎世联邦理工大学迪士尼研究中心,在图像与数据传输方面有很强的技术功底。
图 | 去年 8 月,RayShaper 参与实现了 5G 8K 技术在国际重大赛事中的首次示范应用(来源:RayShaper)
去年,RayShaper 作为国内唯一拥有符合要求的 8k 超高清编码器的公司,参与了国庆 70 周年庆典活动 8k 全链条实战直播;首次采用 5G 8k 技术进行了篮球世界杯的赛事直播;随后还完成了全球首例 5G 手机接收 5G 8k 直播、全国首例 8k 超高清视频卫星转播。
据了解,RayShaper 的核心技术还入选了 2022 冬奥会云转播平台,这意味着它将正式进入体育直播和其他非脚本事件摄影师的视线。
在 5G 和 AI 的 加持下,一个全新的计算成像技术时代即将到来。RayShaper Bee 基于 VPU 的新一代仿生复眼计算视觉系统,提供了一种在价格、功耗、延时和性能之间权衡取舍和动态调度的革新性思考路径。这或许是它颇受关注的原因所在。