Ilya Sutskever,OpenAI的前首席科学家,曾经在一次演讲中公开提到——
在人工智能的发展中,注意力的出现是最令人兴奋的一项技术进步,并且这项技术将长期存在于AI的基础算法架构中,很难被替代。
很明显,Ilya Sutskever 预言了这项技术的重要性。
这项技术之所以如此重要,很大程度上是因为——
注意力机制的来源,就是人类的天生感觉。AI 的注意力,模拟的是人类感官的第一性。
你可以观察上面的图像,然后思考一下:在观察这只狗的时候,你的注意力(眼睛观察的焦点)最开始放在了图像的什么地方?
这里暂停一下,请观察一下上图。
观察完毕后,请你继续往下看。
人类的视觉注意力,通常会用“高分辨率”关注自己感兴趣的区域(比如你的第一眼可能会落在上图中小狗的耳朵和鼻子上)。
同时用“低分辨率”感知周围的图像(比如你观察了好几遍之后,可能才会注意到雪地背景和小狗身上穿的衣服)。
在这种情况下,眼睛会不断地调整焦点,然后对图像进行推理,得出结论——
图像中是一只小狗(第一反应),披着衣服(可能是第二反应),站在雪地上(可能是第三反应)。
这便是典型的人类视觉系统的注意力机制。
这种机制可以帮助你快速从图像中获取关键信息,同时,以关键信息为基础进行更多的推理。
以上图为例,当你注意到小狗的鼻子和眼睛以及右侧的耳朵(红色框标识)后,你会自然而然的认为,在小狗的左侧会有一只类似右侧尖尖的耳朵存在(黄色框标识)。
这说明,鼻子、右侧的耳朵和嘴巴,对于推理出左侧的耳朵的存在非常重要。
这其中,右侧的耳朵可能更加重要,因为它可以直接给出左侧耳朵的形状和大致轮廓(镜像)。
而小狗身上穿着的衣服,对于推理出小狗左侧的耳朵形状这件事貌似没有太大帮助。
这便是注意力在图像推理中所展现的作用。
更多关于注意力的介绍,可以查看《Transformer最后一公里》专栏。