“当前计算机视觉研究过于集中在少数任务, 而且各个任务是预设的、相互割裂的,例如图像分割、搜索、推荐、识别、三维点云重建等。计算机视觉应该服务于通用人工智能所需要的“大任务”,不同任务的需求的结果与精度是不同的,一个通用的视觉系统必须能够根据智能体(AI Agents)实时变化的任务来动态调整其损失函数,调度计算的进程。”
6月12日,北京通用人工智能研究院经理朱松纯教授应邀为首届中国三维视觉大会(China3DV),做题为《面 向大任务的三维场景重建与理解》的首场主旨报告。朱教授强调了大量的几何常识在三维重建中的重要作用, 指出三维视觉的路径应该是由三维重建到任务导向的三维场景理解,并展示了面向任务的场景表达和类人推理 在三维场景中的功能性、物理性和实用性之间的关系,为三维视觉如何推动通用人工智能的发展指明了方向。
China3DV大会由中国图像图形学学会(CSIG)三维视觉专委会创建,聚焦三维视觉领域前沿热点问题,旨在全方位展现最新技术及未来发展趋势。12BET教授、CSIG三维视觉专委会主任陈宝权在大会开幕致辞中表示:本次会议旨在探讨人工智能时代三维视觉的新理论和新技术,打破计算机视觉、计算机图形学、大数据以及机器人等领域的边界,推动三维视觉理论和方法体系的构建和发展、加快三维视觉技术的实用化和产业落地。鉴于朱松纯教授在计算机视觉领域前沿的国际地位和人工智能领域的前瞻性,特别是他在建立计算机视觉领域华人学者影响力方面的领导作用,大会特邀请朱教授作为首届China3DV大会的第一位主旨报告嘉宾。
在主旨报告中,朱松纯教授向在场听众提出了四个值得思考的问题:如何实现单视角三维重建?三维视觉的任务是什么?决定三维场景的认知暗物质是什么?三维视觉能为通用人工智能做什么?
1990年代以来的三维视觉研究聚焦于从多视角图像中重建场景模型。虽然人类的双目视觉能够通过视差推理出深度信息,但是当观测目标超过手臂能触达的距离,双目视觉计算出的深度并不准确,而且人类的很多任务对环境的认知并不依赖于对三维场景的精确建模。于是,朱教授提出“八分理解、两分重建”的理念。当前三维重建的研究结果是点云或者深度图,仍然是图像,还需要经过理解这个阶段。人的视觉系统应该是理解先于重建,理解可以大大帮助三维重建。
图像是三维世界的二维投影,不可避免地损失了一些立体信息。所以理论上讲,很多研究者认为从单张二维图像中重建三维场景是不可能的。要解决这个问题我们需要大量先验知识作为约束条件来弥补损失的信息。这些先验知识就包含生活环境中的大量的几何常识、物理常识等。
朱教授在报告中介绍了从单张二维图像,通过描绘原始草图(Primal Sketch)的方式进行三维场景重建的方法。以椅子为例,我们之所以能从椅子的二维图纸中重建出三维物体,正是因为我们对椅子有几何常识作为先验知识。先有理解、再做重建,基于先验知识我们可以从单视角图像中重建出不同精确程度的三维模型。具体的重建精度则取决于任务,不同任务则需要不同的先验知识。
朱松纯教授进一步介绍了以任务为导向的三维重建工作。
心理学研究表明,人的视觉体验比“是什么”和“在何处”要丰富得多。在婴儿时期,人类就能迅速有效地感知因果关系、智能体的意图、以及物理力的后果等一系列“大任务”。过去二十年来,CVPR的研究主要聚焦于视频监控、图像搜索,也包含图像处理和多媒体等。朱教授认为,这些“并不是生物视觉系统在进化中负责的主要任务,计算机视觉应该服务于“大任务”。由于不同任务对于视觉系统的需求是不同的,因此视觉研究需要以任务为导向。以三维场景重建为例,朱教授演示了在不同任务导向下,所重建的不同的三维场景。以任务为导向即目的论,无论是第一视角(即智能体执行任务),还是第三视角(即观察、理解人类的意图),目的论的思想都发挥了重要作用。人脑的很多知识是按照任务来组织的, 所以智能是以任务为中心的。因此,面向任务的场景重建和理解具有重要的实用价值,也是三维视觉应该重点关注的研究方向。
除了重建场景几何与外观,我们更想探索场景背后的视觉上不可见的信息。朱教授借用天体物理学领域“暗物质”的概念来解释“暗”的高阶认知概念:功能性(Functionality),直觉物理(Physics),意图和目标(Intent),主观因果(Causality)和效用(Utility),这五个认知领域是“不可见”的“暗物质”。这些不可直接观测的因素决定着场景的三维布局,驱动人类在场景中的行为,而现有的计算机视觉研究中严重缺失这些主观的因素。由于没有数据,现有的“大数据深度学习”范式下的人工智能算法对这些领域无能为力,而人类在这些领域的认知非常高效。所以,朱教授提出,实现通用的人工智能系统,其实是“九分主观、一分客观”,需要研究大量的“主观表达与模型。”
朱教授演示了场景的深层次理解如何支持各种各样的应用,包括基于物理和功能判断物体掉落的风险性,通过人类活动建模场景等。对时间、空间、因果和文字的共同解析可以实现智能视觉问答系统。
总的来说,结合先验知识,我们需要从视觉可见的场景外观中推理出看不见的场景信息(暗物质),从而实现从视觉感知(重建)到认知(理解)的过程,也就是从知其然到知其所以然。
三维视觉将帮助构建“大任务”的训练和测试平台,对现实场景进行重建,从而构建虚拟世界供人工智能训练和测试。帮助AI泛化各类知识与常识,让AI实现在日常生活环境下的仿真模拟与训练。在报告的最后,朱教授指出,三维视觉将为实现可解释的通用AI智能体产生重要的积极作用。
在会后的“3DV面对面”交流环节,众多老师同学围上来进一步交流,朱教授对三维视觉的研究者寄予厚望:“三维视觉研究与人工智能的发展紧密相关,三维视觉科研者应该成为人工智能研究的主力军;做科研要抓住核心问题,避免追逐热点,不能拘泥于只是当前有用,而要做5年10年后有用的东西。”
朱教授与众多青年学者交流
朱教授的精彩报告和现场交流在与会者中引起了极大的反响。陈宝权教授表示,三维视觉处在一个新的发展时期,新型传感器、云端边计算和移动显示设备的普及带来了前所未有的机遇,它不是已有研究的线性延续,而应该跳出现有问题框架,瞄准通用人工智能目标,着眼新的研究方向;朱教授的报告给大会带来的新视野和新观点,为三维视觉的研究者提出了新的目标和任务,将会激发更多学者和员工投入到这一个生机勃勃的领域,加快三维视觉的理论创新、技术突破和产业落地。