百年鹰眼一只老鹰有效果吗?

“机器视觉一旦普及,就会产生大量的机器人和人工智能设备的爆发。这和寒武纪生命大爆发是一样的。我们认为,现在,就是机器人的寒武纪时代。”

中国科学院上海微系统与信息技术研究所研究员

大家好,我是张晓林,这是我第三次来到格致论道。我特别喜欢这个平台,每次研究有一点儿新的进展,我就会来到这里和大家分享。

我主要研究仿生视觉。在我的研究生涯中,有一半时间在研究机器人,另外一半时间在研究医疗中的神经学,特别是视觉方面的神经学。我们将机器人和视觉神经学结合在一起,就变成了仿生眼。今天我分享的主题是《赋机器人予视觉》,其中还会讲到一个子课题——视觉是大脑形成的关键。

我们首先来讲视觉。在五亿多年前的寒武纪时代,一个小虫的脑袋上长了一个感光细胞,感光细胞慢慢变成了眼睛,对光产生了反应。换言之,视觉的诞生导致了寒武纪生命大爆发,一时间地球上出现了大量新生命。

因为有了视觉,大脑才能不断地发展。通常我们会讲,有了眼睛就会有好的大脑,有了好的大脑就会有更好的眼睛。所以,眼睛和智慧是相辅相成的。视觉处理几乎需要用到人类的整个大脑,大脑近乎所有的部分都与视觉有关。

接下来,我们看一下自然界中顶级的四种眼睛,分别是蜘蛛眼、复眼、鹰眼和人眼。在生物进化的时侯,生物的功能常常会在大概几百万年内突然达到顶级,在这之后暂时不会发生变化。因为生物的进化过程很快,我们很难找到进化途中的生物,只能找到最佳状态时的生物。

蜘蛛眼(左上)、复眼(右上)、鹰眼(左下)和人眼(右下)

为什么这四种眼睛是集中了四种顶级配置的眼睛呢?

比如,蜘蛛有8只眼睛,前后各有4只,它能够看见360度的景象。这种眼睛代表了蜘蛛的智能,它已经无法再往上发展了。

其次,所有的昆虫都在使用复眼昆虫在使用复眼的时候,比较容易理解和处理收到的信息。所以,像昆虫这种大脑比较单纯的动物就喜欢使用复眼。复眼在小型的昆虫上是视觉效果最好。特别是蜻蜓,它有25000多只小眼。虽然复眼的使用效果很好,但复眼也只能发展到昆虫阶段。

经过不断地进化,高等动物,特别是脊椎动物,使用的是配置更高的眼睛。在会飞行的动物的眼睛中,鹰眼是最高级的眼睛。鹰眼的特点就是看得远,它能够在千米高空看到地面的蛇和老鼠等。

而我们人类可以通过眼睛暗送秋波,以目传情,因为人的大脑最聪明。眼睛可以做很多事情,或者可以发现很多细节的东西。

双眼可动为什么这么重要

我们主要研究人的眼睛,已经研究了20多年,人眼的数据比较充足,对人眼的研究也比较多。所以我们做仿生眼也是从人眼开始研究,但人眼也是最难研究的。

仿生人眼是机器视觉的极致

高等动物的视觉有两个特点。首先,高等动物都拥有双眼。大家可以看到几乎所有的高等动物,即脊椎动物的眼睛都是两只,看不到第三只眼,二郎神这种生物其实是不存在的。其次,这两只眼睛都是可以动的,没有高等动物的眼睛是不动的。

为什么会有这种情况呢?这是因为双眼能形成立体视觉,左右两只眼睛通过三角算法就可以测距离。而如果要看得远、看得广,双眼就必须可以动。

看得远、看得广是双眼可动的第一个特点。比如,如果大家要用同样能力的相机看远处,就必须用望远镜头。望远镜头的摄像角比较窄,必须要移动才能看到各个地方。

双眼可动的第二个特点,就是要看得清、跟得上。如果下图中的这条大鱼要抓小红鱼,它的眼睛就要紧跟着小红鱼,保证视线在小红鱼身上不动。这样大鱼的双眼获取的图像就会很清楚,不会模糊。同时,大鱼要时刻跟踪小红鱼,因为不知道这条小鱼要往哪儿跑。如果一旦让它离开视线,看不见它,它可能会突然咬大鱼一口,所以大鱼的视线要一直跟着它。这就是视觉的一个必然。

既要看得广又要看得远,既要看得清又要跟得上

现在我们做的绝大部分的人工机器视觉都是固定的,比如多目、单目。我们研究制作的仿生眼的主要特点就是可动。

接下来,双眼可动的第三个特点就是三个自由度。三个自由度就是眼睛不仅会左右上下地旋转,还会绕视线旋转,这是必须的。而其他绝大部分的可动相机都是左右上下地转。

另外,高等动物的双眼还存在双眼协调运动。这一点很重要。这就像我们人的眼睛一样,当我左眼看一个物体的时候,右眼就不能看别的地方了,只能对着这个物体看。这对于捕猎动物来说是必备的,因为它要看清楚猎物的距离并保持稳定。

老虎捕猎时会进行双眼协调运动(左)和双眼协调运动示意图(右)

比如,右图中间视线汇集的红点叫注视点。当我们看向哪里,双眼的两个光轴就对着哪里。灰色的中心视立体视区域范围很小,这是双眼能看清楚的地方;周围视场角比较广的地方则看得比较模糊。像老虎这种动物,包括人也是一样,盯着猎物看的时候,一定要把两只眼睛对准它。这两只眼睛就同时产生了各种运动,叫做协调运动。

视觉需要几乎整个脑的参与

眼球运动又是高智商的一种体现。我们在做仿生眼的时候,最难的地方就是我们不能进行人为控制。我们不能通过点击鼠标来告诉仿生眼应该看指定位置,而是要让它自己决定看哪里。

当一个人看左图中的小女孩的时侯,右图就是他的视线移动轨迹。大家可以看到视线最集中的地方是小女孩的眼睛和嘴。我们可以理解为人的眼睛和嘴,这对于了解一个人是最重要的。眼睛一直盯着这些地方看,视线会随之变化。如果我们的机器人能有这个智商水平,那这种机器人就活了。

刚才讲到,视觉几乎能够影响到整个大脑,或者说几乎整个大脑都参与了视觉协同。

从视觉开始的大脑信息处理系统

从上图中大家可以看到,外侧晶状体通过视放线把眼睛看到的图像运到了V1(初级视皮层)领域,接着扩展到V2、V3(纹外皮质),然后图像逐渐进入到MT即V5区域,再进入到韦尼克区。通过一层层不断地处理,图像到韦尼克区的时候就已经变成了语义。语义是什么?就是当我看到一个图像时,能把图像理解成文字或者意思。

接着又进入到布诺卡区,又叫运动语言区。它能够对意思进行处理,变成我们要想说的或者我们想做的事。如果没有这一部分,人的表达就会语无伦次,虽然能讲话,但是讲不通顺。

再往上就是运动皮层,它控制着我们的动作,让我们做出决策。然后再往下走就进入了颞叶,颞叶与听觉和前庭有关,通过颞叶,人能够知道自己的位置。

再之后又进入到海马,海马是记忆和位置识别的地方。如果看到海马某一个地方的神经兴奋了,我就能知道这个人在什么位置。我们在实验中也常常借助这一特点。根据老鼠的海马区域的神经兴奋状态,我们就能知道老鼠在什么地方,这是一个很重要的研究。

所以,几乎整个大脑都参与了视觉的处理,小脑也用来做控制,而脑干的部分更是如此。

我们可以看到,脑干上的动眼神经核控制眼球往里转,展神经核控制眼球往外转,滑车神经核控制眼球旋转等等。所以,脑干上的很多部分也控制着眼睛,这就可以看到眼睛的重要性。

上图展示了大脑系统比较粗的框架结构。大家可以看到脑干的位置,以及小脑、上丘、晶状体和丘脑的功能。我们还能看到大脑视觉皮层,还有刚才讲的V1、V2、V3、海马和韦尼克区的功能等等。

眼球运动控制神经系统的数学模型

除此之外,我们还有一些小型的框架,比如脑干上的各个神经是怎么连接的。我们用数学模型来做眼球运动控制系统。我们了脑干上的眼球运动控制系统数学模型,所以我们成功做出来了一套仿生眼。

我们制造的仿生眼的眼球力量很大,扳都不太动。这个仿生眼是可以旋转的,和通常的防抖系统不太一样。即便我们把它拿起来晃,它接收到的的图像依旧很稳定,因为仿生眼的防震效果非常好。

仿生眼功能:多种眼球运动信号的融合

视频中的仿生眼的眼球在跟着这个人的照片走,即使下面的桌子在晃,也不影响它的跟踪。它仍然能保证照片在它的视觉正中心。

这是什么原因呢?这叫做前庭动眼反射,也就是我们人类通过耳朵里的半规管来控制眼睛。在仿生眼中叫做叫IMU,也就是用陀螺和加速度传感器来控制眼睛。这样眼睛就不受震动的影响,头部震动也不会影响到它。

另外,仿生眼还可以做切换运动。视频中的红圈代表它注视的地方。我们可以看到仿生眼它一会儿看这个人,一会儿又看另外一个人,可以快速地跳跃。这就是眼球的一些基本功能,能够融合多种眼球运动信号。

仿生眼功能:跳跃型眼球运动

刚才讲到了跳跃,大家知道很多稳拍系统就是让摄像机稳定,下面无论怎么动,上面都要稳定。但这是远远不够的,还需要眼球快速地转才行。因为东西跳过去或者需要切换的时候,眼睛必须快速地转。所以,仿生眼的马达即电机的力量要非常强。这个视频就展示了仿生眼的跳跃型眼球运动的功能。

仿生眼功能:高精度定位导航

仿生眼还有高精度定位导航的功能。大家可以看到,右侧的视频画面非常晃动,是没有眼球运动控制的;而左侧的视频画面非常平稳,是有眼球运动控制的。

这两组视频在拍摄时同样经历了晃动,但却获得了完全不一样的图像。而图像不一样,说明视频下方的运动轨道也是完全不同的。左下方视频中的轨道非常稳定,右下方视频中的轨道不稳定。

除了前面所讲的功能外,仿生眼还有三维重建功能。在仿生眼的两个相机对准中间的一个注视区后,就能形成立体感。右下方的图像是一个关于立体感的深度图,颜色越蓝表示距离越近,颜色越红表示距离越远,相当于激光雷达。左上方的图像在晃动。左下方展示了一个立体图,也就把右下方的深度图补上颜色。

大家可以看到,仿生眼在晃动的时候仍然能做出立体图,这是非常关键的。到现在为止,世界上其他团队还不能在两只眼睛都动的情况下得到立体图。这其中的原因非常简单,因为立体图与转角传感器的关系非常密切,里面有一整套算法。

有了这些功能之后,所有的固定相机积累的几十年的算法都可以用在仿生眼上。一旦仿生眼动了以后,就出现了很多特点。它想看什么,或者是想注视什么、想追踪什么都可以做,同时它又能做立体视觉。

用仿生眼赋予机器人视觉

那么,仿生眼做好以后,它就要进阶到更高端的智能程度。它现在仅有一台小型计算机的能力,这显然是不够的。所以需要让它进入到云端,通过大型计算机来处理。这也是机器人未来会威胁到人类,或者是远远超过人类大脑的一个特点。

仿生眼功能:机器头脑与云脑

比如,我们给它看雨伞和背包,告诉它这是雨伞和背包。然后它通过识别后不断地积累知识,形成一个大的知识库,我们可以随意调动知识库的内容。

我对它说杯子,它能够马上把实验室、整个楼层,甚至所有它学过、去过的地方与杯子相关的信息都调出来。如果我说想喝一杯水,那么它就会去找杯子和水的信息,然后拼在一起。这种事情已经在云脑上实现了。

我们可以看到,仿生眼的应用有很多,包括三维重建、实例分割、显著性结果等。实例分割就是把人的眼睛看到的东西分成各个物体。仿生眼还能呈现显著性结果,这个机器人它感兴趣的地方在哪里,它会用热力图来显示,这样这个眼睛就活起来了。

为机器人提供丰富、可靠的视觉信息

未来仿生眼的应用会很广。比如,当下方视频中机器人的眼睛看到这个小型立体的玩具时,它会用机器手去抓,这个玩具是比较硬的。机器手只有一个方向,它一定要知道要从哪个角度去抓玩具,所以机器人一定要有立体视觉。这就是立体视觉的重要性。

助力机器人自主分析与决策

看起来视频中的机器人的使用手臂的速度似乎有点慢,但是它在视觉上的动作是很快的。将来我们会在各种场合应用这种机器人,特别是左右手的协调。

接下来,我给大家分享一个无人驾驶中很重要的特点。在下面的视频开头可以看到,我们在小车上面放置了两个仿生眼(BE),在仿生眼的下面放置了双目相机(ZED)来做比较,之后我们用视频中的设备展开实验。

仿生眼应用:多地形自动驾驶

仿生眼和双目相机拍摄的图像是不一样的,左上方的视频是仿生眼拍摄的,画面是平稳的;右上方的视频是双目相机拍摄的,画面振动得很厉害。

左下方的视频是机器人做出的轨迹图。它看到了自己的位置,根据空间上的点的移动,算出自己的轨迹。大家可以在视频中看到很多黑点和红点,我们称为特征点。

右下方的视频是机器人测量并画出的三维图,也就是机器人边走边画的图,它走过的地方会在三维地图上显示出来。

如果给机器人提供了目标地图,它自然就会按照地图走。视频中我们没有给它提供地图,而是它自己来控制行走路径。它能够边走边测地图,只要它走过一个地方,它就能画好这个地方的地图。

我们用仿生眼和固定双目相机做比较。大家可以在视频后半段中看到,仿生眼和固定双目都对同一个平的地方画图。仿生眼画出来的图是一个平面图;固定双目画的图不是平的,产生了分层,这意味着固定双目画的图是有问题的。所以,仿生眼在无人驾驶上的用途也很明显。

情感交互智能机器人是我们近期正在攻关的仿生眼应用。迪士尼的这个机器人的眼睛上是没有相机的,下面有个双目相机,我们通过双目相机来控制上面的眼睛。那么,未来我们计划能够让它真正用眼睛看见物体,和真的人类一样。

德国萨尔大学人机交互实验室——EyeCam

这个视频中展示的是德国团队最近制造的EyeCam。它也是在后面放置了相机,不是用前面的眼睛来看物体。

中科院上海微系统所——Bino-Sense

这个图像中展示的是我们现在正在做的Bino-Sense。预计大概两三个月以后,它就能像人眼一样可以动,即成为有视觉能力的眼球。

仿生鹰眼(左)和鹰捕食时的用眼方式(右)

我们也利用老鹰的眼睛来做仿生眼应用。上图中的仿生眼睛上有望远镜头和两个固定双目,因为老鹰的眼睛有两个中心视。在1000米高空的时候,老鹰用深的中心视看;在距离近的时候,老鹰用浅的中心视看。老鹰在天空盘旋的时候,它是用一只眼睛来看物体的。

这是我们最近做的一个鹰眼结构的相机。我们可以看到,它有四个相机,分别是是望远、中望远、广角和红外的相机。这个鹰眼结构的相机还有光源和激光测距仪。有了这样的相机,在无人机或者在车上,我们都可以看很远的东西。如果要在深山老林里监测动物,或者要在西藏高原监测冰川,我们都会用到这一款机器。

另外,为了让大家更广泛地了解应用仿生眼的特点,我们做了一个通用平台,也是有三个自由度的。这个仿生云台可以放置各种传感器,它不仅具有摄像机拍摄的稳定性,还可以把转角传感器的各种信息和陀螺信息全部收集出来,与图像做匹配。

激光雷达(L515)(左)和固定双目相机(D435)(右)

这是英特尔的两个机器,左图是激光雷达,右图是固定双目相机

我们用它们做了一个比较。左侧的视频没有加防震效果,右侧的视频加上了防震效果。画面差距很大,右侧的图像不仅很稳定,而且很清楚。

所以,尽管我们用的是别人的相机和激光雷达,有了这个稳定平台,对于拍摄也是非常有用的。但是,这和普通的稳拍完全不一样。稳拍不可能自己找出角度,与图像做配置。

仿生眼将来会在无人驾驶、无人机等等各种运动平台上发挥非常好的效果。机器视觉一旦普及,就会产生大量的机器人和人工智能设备的爆发。这和寒武纪生命大爆发是一样的。我们认为,现在,就是机器人的寒武纪时代。

版权说明:未经授权严禁任何形式的媒体转载和摘编,并且严禁转载至微信以外的平台!
文章和演讲仅代表作者观点,不代表格致论道讲坛立场。

“格致论道”,原称“SELF格致论道”,是中国科学院全力推出的科学文化讲坛,由中国科学院计算机网络信息中心和中国科学院科学传播局联合主办,中国科普博览承办。致力于非凡思想的跨界传播,旨在以“格物致知”的精神探讨科技、教育、生活、未来的发展。获取更多信息,欢迎关注格致论道官网:,微信公众号:SELFtalks,微博:格致论道讲坛。

}

我要回帖

更多关于 一只老鹰护眼产品怎么样 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信