新闻中心 >> 公司新闻 >>

从“看见”到“看懂”,机器视觉如何开启新“视”界?

2025-10-25 20:30:10

【导语】近年来,人工智能浪潮席卷多领域,深度学习更颠覆了机器视觉。机器视觉如何“看”世界?相比人眼,它有何优势?从20世纪60年代萌芽,到如今AI驱动新时代,机器视觉已在电磁波谱、生活场景、跨学科领域等“大显身手”,成为人类探索未知的“智慧之眼”。

近年来,人工智能的快速发展让多个领域发生了重要变化。作为人工智能的核心分支,深度学习的高速发展也对机器视觉产生了颠覆性的影响。

究竟何为机器视觉?机器何以“看见”?相比人眼,机器视觉具有何种优势?又能在哪些领域发挥重要作用?

机器视觉的“前世今生”

众所周知,人类借助五种主要感官认识世界,其中获取信息的80%来自视觉。我们之所以能获取所看到的信息,其实是由物体的反射光照到人眼中,再借助眼中的光感受器将光信号转化为电信号,然后交给大脑进行处理,从而形成人类视觉。

视觉作为人类最高级别的感知对于人们而言非常重要,而在机器的世界里,视觉的重要性也不可小觑。所谓机器视觉便是为机器装上“眼睛”,用传感器来代替人眼,以电脑来代替人脑,自动处理分析图像或视频,使机器能够“看懂”环境并自主决策的技术。

事实上,机器视觉的出现可追溯至20世纪60年代。1963年,机器视觉领域出现了第一篇博士论文《三维实体的机器感知》,论文的作者为美国麻省理工大学的劳伦斯·吉尔曼·罗伯茨(L. G. Roberts),他利用计算机程序从数字图像中提取出立方体、楔形体、棱柱体等多面体的三维结构,并对物体形状及物体的空间关系进行描述。在这一阶段,机器视觉技术隶属于模式识别领域,主要集中在二维图像的分析和识别上,最典型的应用包括文件里的字符识别、工件表面的处理、分析和解释等。

1973年,英国神经系统学家与心理学家大卫·马尔(DavidC.Marr)教授应邀在美国麻省理工大学的AI实验室领导一个研究小组,建立了一套视觉计算理论,使该领域的研究有了较为明确的体系,极大地推动了机器视觉研究的发展。令人感到惋惜的是,大卫·马尔教授因为身体原因很早便过世了,在他去世后,他带领的研究小组根据他在1973-1977年间进行的研究,整理出一本学术著作——《视觉》,这本专著的问世也标志着计算机视觉(机器视觉)成为一门独立学科,他也被誉为计算机视觉领域的“开山鼻祖”。

20世纪80年代至今,机器视觉领域飞速发展。硬件性能从早期集成电路计算机发展到GPU等高性能芯片,数据资源从早期少量手写数字数据到如今的海量图像数据。同时,机器视觉领域的算法也实现了持续优化,从基于规则的算法发展到基于深度学习的算法,而在应用领域方面,早期简单的字符识别已是过去式(shì),如(rú)今(jīn)已(yǐ)能(néng)够(gòu)实(shí)现(xiàn)视(shì)觉(jué)导(dǎo)航(háng)与(yǔ)人(rén)机(jī)交(jiāo)互(hù)。由(yóu)此(cǐ)可(kě)见(jiàn),机(jī)器(qì)视(shì)觉(jué)在(zài)近(jìn)40多(duō)年(nián)间(jiān),在(zài)多(duō)个(gè)方(fāng)面(miàn)都(dōu)展(zhǎn)现(xiàn)出(chū)了(le)长(zhǎng)足(zú)的(de)进(jìn)步(bù)。

伴(bàn)随(suí)着(zhe)近(jìn)些年AI领域的崛起,深度学习在计算机视觉领域出现了崭新突破,标志着机器视觉进入了AI驱动的新时代。

复杂的机器视觉系统

与人眼类似,若想使机器拥有获取并处理信息的能力,也需要一套完整的体系,包括图像采集系统、视觉信息处理软件、显示器、处理器单元、机械控制软件,以及执行机构。

实际运行过程中,先由图像采集系统获取视觉(图像)信息,类似用照相机拍摄一张照片,然后将图像传给视觉信息处理软件,进行图像的分析与决策,而这些工作由处理器单元来执行操作,其就像机器的“大脑”,负责视觉算法运行,显示器则负责呈现视觉算法的运行结果。同样,也可以将决策结果传给机械控制软件,它会根据决策指导运动或操作,随后交由执行机构根据控制信息完成相应操作。

随着机器视觉领域的不断发展,领域内的研究内容也愈加广泛。机器视觉领域的研究人员常会选取其中部(bù)分(fēn)细(xì)分(fēn)领(lǐng)域进(jìn)行(xíng)深(shēn)入(rù)研(yán)究(jiū),如(rú)图(tú)像(xiàng)分(fēn)类(lèi)、目(mù)标(biāo)检(jiǎn)测(cè)与(yǔ)识(shi)别(bié)、图(tú)像(xiàng)语(yǔ)义(yì)分(fēn)割(gē)、目(mù)标(biāo)跟(gēn)踪(zōng)、立(lì)体(tǐ)视(shì)觉(jué)与(yǔ)三(sān)维(wéi)重(zhòng)建(jiàn)、视(shì)频理解与行为分析、医学影像分析、三维理解与视觉导航等。

和人类视觉相比,机器视觉拥有超强的信号感知能力和对海量数据的快速分析能力,系统稳定性高且不知疲倦,因而常被应用于不同领域。

在整个电磁波谱“大显身手”

尽管是一个只有几十年发展史的新兴学科,机器视觉却已经在图像处理领域彰显出庞大力量。目前,机器视觉系统处理的最主要的数据来源是电磁波谱成像,此外还包括声波、超声波等。在整个电磁(cí)波(bō)谱(pǔ)上(shàng),几(jǐ)乎(hu)所(suǒ)有(yǒu)的(de)电(diàn)磁(cí)波(bō)都(dōu)可(kě)以(yǐ)成(chéng)像(xiàng),因(yīn)而(ér)人(rén)们(men)利(lì)用(yòng)不(bù)同(tóng)的(de)传(chuán)感(gǎn)器(qì)去(qù)形(xíng)成(chéng)数(shù)字(zì)图(tú)像(xiàng)数(shù)据(jù),再(zài)利(lì)用(yòng)图(tú)像(xiàng)处(chù)理(lǐ)或(huò)机(jī)器视觉技术完成工业生产、医疗诊断等科学探索的视觉任务。

在电磁波谱的最左端是波长最短、能量最强的伽马射线,它的图像主要应用于核医学和天文图(tú)像(xiàng)中(zhōng)。医(yī)院(yuàn)里(lǐ),人(rén)们(men)有(yǒu)时(shí)会(huì)见(jiàn)到(dào)正(zhèng)电(diàn)子(zi)发(fā)射(shè)计(jì)算(suàn)机(jī)断(duàn)层(céng)显(xiǎn)像(xiàng)设(shè)备(bèi)(PET),其(qí)被(bèi)用(yòng)于(yú)骨(gǔ)骼(gé)病(bìng)变(biàn)的定位。检查时,将放射性同位素注射到人体内,这些同位素会发生衰变,同时发出伽马射线,再利用伽马射线检测仪收集放射线产生图像。如果人体存在病变或肿瘤,该部位吸收的放射(shè)性(xìng)元素就会更多,放射出来的伽马射线更强,因此会在图像里呈现很亮的状态,医生就能够根据图像亮度的分布进行诊断。

与伽马射线相邻的是大家相对熟悉的X射线,其被广泛应用于医学、天文、工业图像(xiàng)等(děng)。医(yī)学(xué)检(jiǎn)查(chá)中(zhōng)的(de)CT——计(jì)算(suàn)机(jī)X射(shè)线(xiàn)断(duàn)层(céng)摄(shè)影(yǐng)仪(yí)器(qì),便(biàn)是(shì)运(yùn)用(yòng)了(le)X射(shè)线(xiàn),其(qí)穿(chuān)透(tòu)人(rén)体(tǐ)时(shí),能(néng)使(shǐ)人(rén)体(tǐ)组(zǔ)织(zhī)在(zài)荧(yíng)屏(píng)上(shàng)或(huò)胶(jiāo)片(piàn)上(shàng)形(xíng)成影像。基于X射线(xiàn)的(de)穿(chuān)透(tòu)性(xìng)、荧(yíng)光(guāng)效(xiào)应(yīng)和(hé)感(gǎn)光(guāng)效(xiào)应(yīng),以(yǐ)及(jí)人(rén)体(tǐ)组(zǔ)织(zhī)之(zhī)间(jiān)的(de)密(mì)度(dù)和(hé)厚(hòu)度(dù)的(de)差(chà)别(bié),医(yī)生(shēng)能(néng)够(gòu)根(gēn)据(jù)图(tú)像(xiàng)的(de)颜(yán)色(sè)进(jìn)行(xíng)诊(zhěn)断(duàn)。以(yǐ)下(xià)图(tú)头(tóu)部(bù)CT图像为例,骨骼密度最高,因此吸收的X射线最多,因而在图像上呈现白色;肌肉和液体密度中等,所以吸收中等强度的X射线而呈现灰色,如大脑组织与(yǔ)眼(yǎn)球(qiú);气(qì)体(tǐ)和(hé)脂(zhī)肪(fáng)密(mì)度(dù)最(zuì)低(dī),所(suǒ)以(yǐ)吸(xī)收(shōu)的(de)X射(shè)线(xiàn)最(zuì)少(shǎo),因(yīn)而(ér)在(zài)图(tú)像(xiàng)中(zhōng)显(xiǎn)现(xiàn)为(wèi)黑(hēi)色(sè)或(huò)深(shēn)灰(huī)色(sè)。


此外,紫外波段、可见光、红外波段、微波波段、无线电波段均可被机器视觉系统处理。其中,紫外波段应用于工业检测、显微方法、生物成像、天文观测等;可见光广泛应用于显微方法、天文学、遥感、工业检测等领域;红外波段广泛应用于显微方法、天文学(xué)、遥(yáo)感(gǎn)、工业等领域;微波图像的典型应用则是星载雷达;无线电波段则主要应用于医学和天文学,在医学领域,主要用于核磁共振图像(MRI),其与CT相比,图像更为清晰,对于软组织成像的效果更佳。

身边的机器视觉

除医学领域的影像学检查之外,生活中也处处存在着机器视觉的痕迹(jī)。旅游中拍摄风景照时,人们常会发现照片中的颜色相比肉眼看到的实景更为鲜艳,鲜花绿草更为明艳,灰蒙蒙的天空在照片中呈现出湛蓝的美,这些便是机器视觉中的图像增强技术在默默助力。

驾驶车辆进入停车场时,入口处常能快速进行车牌自动识别,进而准确掌握车辆进场时间,这一目标的实现也依赖于机器视觉。为实现车牌号码的精准识别,先由相机拍摄车辆照片再对车牌位置进行定位,随后对字符进行分割,比对样本库,从而对每个字符进行识别,最后便能准确输出结果。

识别景与物之余,机器视觉对于人脸识别的应用更是司空见惯。在火车进站、身份认证、人脸支付等领域已实现了诸多应用。目前,人脸识别系统主要分为两类技术路线,其一是二维人脸识别,即通(tōng)过(guò)相(xiāng)机(jī)拍(pāi)摄(shè)一(yī)幅(fú)可(kě)见(jiàn)光(guāng)的(de)二(èr)维(wéi)照(zhào)片(piàn),在(zài)图(tú)片(piàn)上(shàng)进(jìn)行(xíng)一(yī)些(xiē)特(tè)征(zhēng)点(diǎn)的(de)定(dìng)位(wèi)和(hé)提(tí)取(qǔ),然(rán)后(hòu)在(zài)数据库中进行比对,进而输出最相似的面容对应的姓名。这种方式的优势在于可以直接使用普通摄像头,成本较低,但比较容易被照片或视频“欺骗”。

另一种是三维人脸识别,需要使用三维结构光相机,其中的红外发射器能够投影出一些规则图案的点阵,再将其投影在人的脸部,而红外相机则对投影之后的人脸进行拍摄,进而得到点阵的图案。由于人脸凹凸不平,所以原本设计规则的点阵在拍摄之后会发生形变,通过比较前后两个图案的变形情况,便可得到人脸的三维模型,从而在后端的数据库进行模型比对并输出结果。相比二维人脸识别,这种识别方式准确度更高。

近来关注度较高的“文本生成图像”也与机器视觉密不可分。作为一个高(gāo)度(dù)融(róng)合(hé)的(de)跨(kuà)学(xué)科(kē)领(lǐng)域,其(qí)被(bèi)称(chēng)为(wèi)“生(shēng)成(chéng)式(shì)视(shì)觉(jué)”或(huò)“视(shì)觉(jué)内(nèi)容(róng)生(shēng)成(chéng)”。“生(shēng)成(chéng)式(shì)视(shì)觉(jué)”旨(zhǐ)在(zài)生(shēng)成(chéng)、编(biān)辑(ji)、增(zēng)强(qiáng)图(tú)像(xiàng),利(lì)用(yòng)自(zì)然语言处理(NLP)技术理解文本提示词的含义,属于计算机视觉与NLP的学科交叉。

此外,交通领域的自动驾驶与辅助驾驶,航天遥感领域的地球人造卫星、气象观测、植被覆盖率监测、城市规划分析、地物变化监测、地震救援、数字地球,深空探测领域的探月工程等,都离不开机器视觉的“鼎力支持”。

近些年,人工智能领域飞速发展,将机器视觉从一个解决特定问题的“工具箱”,转变为一个具备强大“自动学习能力”的、能够解决通用问题的“智能平台”,不仅极大地提升了机器视觉的性能上限,也拓展了机器视觉的能力和应用边界,让人们深刻体会到科技不是冰冷的代码,而是人类探索未知的“眼睛”。

撰文:记者 廖迈伦

采访专家:袁丁,北京航空航天大学宇航学院教授

本文封面图片来自版权图库,转载使用可能引发版权纠纷

400-85643322
广东省广州市番禺区长沙路103号
PR:com@czzscl.com; Sales:ccm@czzscl.com
粤ICP备19042278号 | © 2025 汽车芯片科技有限公司官方网站【登录入口】. All rights reserved. | 网站地图