机器视觉可(kě)以看作是与人工智能(néng)和模式识别密切相关的一个子學(xué)科(kē)或子领域。从我个人的研究经验看,限制机器视觉发展的瓶颈是多(duō)方面的,其中最重要的可(kě)以归结為(wèi)三个方面:计算能(néng)力不足、认知理(lǐ)论未明以及精确识别与模糊特征之间的自相矛盾。
1.机器视觉面向的研究对象主要是图像和视频,其特点是数据量庞大、冗余信息多(duō)、特征空间维度高,同时考虑到真正的机器视觉面对的对象和问题的多(duō)样性,单一的简单特征提取算法(如颜色、空间朝向与频率、边界形状等等)难以满足算法对普适性的要求,因此在设计普适性的特征提取算法时对计算能(néng)力和存储速度的要求是十分(fēn)巨大的,这就造成了开发成本的大幅度提高。
2. 如何让机器认知这个世界?这一问题目前没有(yǒu)成熟的答(dá)案,早期的人工智能(néng)理(lǐ)论发展经历了符号主义學(xué)派、行為(wèi)主义學(xué)派、连接主义學(xué)派等一系列的发展但都没有(yǒu)找到令人满意的答(dá)案,目前较新(xīn)的思想认為(wèi)应该从分(fēn)析、了解和模拟人类大脑的信息处理(lǐ)功能(néng)去构建智能(néng)机器视觉系统,但神经科(kē)學(xué)的发展目前只能(néng)做到了解和模拟大脑的一个局部,而不是整體(tǐ)(当然计算能(néng)力限制也是原因之一)。事实上,我们对人是如何对一个目标或场景进行认知的这一问题仍停留在定性描述而非定量描述上。
3. 机器视觉系统经常被人诟病的问题之一就是准确性。以十年前如火如荼的人脸识别算法為(wèi)例,尽管一系列看似优秀的算法不断问世,但目前為(wèi)止在非指定大规模样本库下进行人脸识别的准确率仍然无法满足实际应用(yòng)的需求,因此无法取代指纹或虹膜等近距接触式生物(wù)特征识别方法。这一问题的出现并非偶然。因為(wèi)目标越精细,越复杂,信息越大,则其模糊性和不确定性也越强。人类之所以能(néng)够较好的对人脸进行识别,其实也是以牺牲一定的准确性為(wèi)代价的。而机器视觉在做的事情一方面想要借鉴人脑或人眼系统的灵感去处理(lǐ)复杂而庞大的信息流,另一方面又(yòu)想摒除人脑在模式识别方面存在的精确性不足的缺陷。这显然是一种一厢情愿的做法。
综合以上三点,机器视觉的发展在短期内难有(yǒu)重大突破,当前的实用(yòng)技术仍然还是会集中在特定性任務(wù)或特定