圖像識别技術:人工智能的一個重要領域-中文百科頻道

概述

圖像識别技術可能是以圖像的主要特征為基礎的。每個圖像都有它的特征,如字母A有個尖，P有個圈、而Y的中心有個銳角等。對圖像識别時眼動的研究表明，視線總是集中在圖像的主要特征上，也就是集中在圖像輪廓曲度最大或輪廓方向突然改變的地方，這些地方的信息量最大。而且眼睛的掃描路線也總是依次從一個特征轉到另一個特征上。由此可見，在圖像識别過程中，知覺機制必須排除輸入的多餘信息,抽出關鍵的信息。同時,在大腦裡必定有一個負責整合信息的機制，它能把分階段獲得的信息整理成一個完整的知覺映象。

在人類圖像識别系統中，對複雜圖像的識别往往要通過不同層次的信息加工才能實現。對于熟悉的圖形,由于掌握了它的主要特征，就會把它當作一個單元來識别，而不再注意它的細節了。這種由孤立的單元材料組成的整體單位叫做組塊，每一個組塊是同時被感知的。在文字材料的識别中，人們不僅可以把一個漢字的筆劃或偏旁等單元組成一個組塊，而且能把經常在一起出現的字或詞組成組塊單位來加以識别。

技術發展

圖像識别技術是人工智能的一個重要領域。為了編制模拟人類圖像識别活動的計算機程序，人們提出了不同的圖像識别模型。例如模闆匹配模型。這種模型認為，識别某個圖像，必須在過去的經驗中有這個圖像的記憶模式，又叫模闆。當前的刺激如果能與大腦中的模闆相匹配，這個圖像也就被識别了。例如有一個字母A,如果在腦中有個A模闆,字母A的大小、方位、形狀都與這個A模闆完全一緻,字母A就被識别了。

圖像識别中的模式識别（PatternRecognition），是一種從大量信息和數據出發，在專家經驗和已有認識的基礎上，利用計算機和數學推理的方法對形狀、模式、曲線、數字、字符格式和圖形自動完成識别、評價的過程。模式識别包括兩個階段，即學習階段和實現階段，前者是對樣本進行特征選擇，尋找分類的規律，後者是根據分類規律對未知樣本集進行分類和識别。這個模式識别的模闆匹配模型簡單明了，也容易得到實際應用。

但這種模型強調圖像必須與腦中的模闆完全符合才能加以識别，而事實上人不僅能識别與腦中的模闆完全一緻的圖像，也能識别與模闆不完全一緻的圖像。例如,人們不僅能識别某一個具體的字母A,也能識别印刷體的、手寫體的、方向不正、大小不同的各種字母A。同時,人能識别的圖像是大量的，如果所識别的每一個圖像在腦中都有一個相應的模闆，也是不可能的。

為了解決模闆匹配模型存在的問題，格式塔心理學家又提出了一個原型匹配模型。這種模型認為，在長時記憶中存儲的并不是所要識别的無數個模闆，而是圖像的某些“相似性”。從圖像中抽象出來的“相似性”就可作為原型，拿它來檢驗所要識别的圖像。如果能找到一個相似的原型，這個圖像也就被識别了。這種模型從神經上和記憶探尋的過程上來看，都比模闆匹配模型更适宜，而且還能說明對一些不規則的，但某些方面與原型相似的圖像的識别。

但是，這種模型沒有說明人是怎樣對相似的刺激進行辨别和加工的，它也難以在計算機程序中得到實現。因此又有人提出了一個更複雜的模型，即“泛魔”識别模型。