8月25号,Facebook开放的一款计算机视觉算法就可以赋予计算机这种能力。该算法不仅可以识别图像中的对象,还能识别与特定对象匹配的形状。这看似雕虫小技,实则超出了现有视觉系统的能力,且用编程实现难度很高。
目前为止,这个算法还只是一项研究工具,但将来可能会促成多种重要应用:比如,让图像编辑程序自动改变图片背景或增强人像;为计算机盲人用户详细描述图像;甚至还可以为皮卡丘识别要攀爬的物体,从而使Pokémon Go等增强现实游戏更逼真等。
近年来,计算机视觉取得了很多重大进展,但大多集中于识别物体或场景类型上。研究人员已开始转向更深度的图像理解,这对提高机器的整体智能很重要。
“(对计算机来说)最难的就是理解现实——理解眼前的东西,”参与该算法研究的Facebook研究经理Larry Zitnick说。“图像分割是场景推理的重要部分。”
Zitnick表示,该算法以后可能会用于研发一个系统,目的是自动增强Facebook用户发布的图像中的产品,或者用于创建更逼真的增强现实应用。比如,“如果你想往房间里放一个虚拟小狗,”他说,“实际上,你是想把它放沙发上或沙发的某个部分上。”
过去几年中,通过用大量样例训练大型模拟神经网络,从而实现对图像的分类,计算机视觉能力出现了大幅度提升。这些“深度学习”的系统通常会识别出一系列特征,比如颜色、质地等,但却不必识别某个物体的轮廓。
Facebook的算法将一系列神经网络结合起来,具有“图像分割”功能。前两个神经网络用于决定单个像素属于某个对象还是其他对象,第三个网络则决定这些特定对象是什么。
UCLA的教授Stefano Soatto专门研究计算机视觉,他认为这个算法“非常重要”且应用前景非常广阔,因为图像分割的难度具有迷惑性,虽然“每个两岁小孩都能指出图片中对象的位置并画出它的轮廓,”Soatto说,“然而,这种轻松感非常具有欺骗性。因为这是几百万年的进化过程加上一半大脑的齐心协力才完成的杰作。”