久久久久亚洲av成人无码网站-久久99精品国产麻豆婷婷-在线观看亚洲av日韩a∨-亚洲人成在线播放无码

計算機視覺發(fā)展的四個主要階段1:馬爾計算視覺

盡管人們對計算機視覺這門學(xué)科的起始時間和發(fā)展歷史有不同的看法,但應(yīng)該說, 1982年馬爾( David Marr )《視覺》(Marr, 1982)一書的問世,標(biāo)志著計算機視覺成為了一門獨立學(xué)科。計算機視覺的研究內(nèi)容,大體可以分為物體視覺(object vision)和空間視覺(spatial vision)二大部分. 物體視覺在于對物體進行精細(xì)分類和鑒別,而空間視覺在于確定物體的位置和形狀,為“動作(action)” 服務(wù)。正像認(rèn)知心理學(xué)家J.J. Gibson 所言,視覺的主要功能在于“適應(yīng)外界環(huán)境,控制自身運動”。 適應(yīng)外界環(huán)境和控制自身運動,是生物生存的需求,這些功能的實現(xiàn)需要靠物體視覺和空間視覺協(xié)調(diào)完成。

 

計算機視覺40多年的發(fā)展中,盡管人們提出了大量的理論和方法,但總體上說,計算機視覺經(jīng)歷了4個主要歷程。即: 馬爾計算視覺、主動和目的視覺、多視幾何與分層三維重建和基于學(xué)習(xí)的視覺。下面將對這4項主要內(nèi)容進行簡要介紹。

馬爾計算視覺(Computational Vision)

現(xiàn)在很多計算機視覺的研究人員,恐怕對“馬爾計算視覺”根本不了解,這不能不說是一件非常遺憾的事。目前,在計算機上調(diào)“深度網(wǎng)絡(luò)”來提高物體識別的精度似乎就等于從事“視覺研究”。事實上,馬爾的計算視覺的提出,不論在理論上還是研究視覺的方法論上,均具有劃時代的意義。

 

馬爾的計算視覺分為三個層次: 計算理論、表達(dá)和算法以及算法實現(xiàn)。由于馬爾認(rèn)為算法實現(xiàn)并不影響算法的功能和效果,所以,馬爾計算視覺理論主要討論“計算理論”和“表達(dá)與算法”二部分內(nèi)容。馬爾認(rèn)為,大腦的神經(jīng)計算和計算機的數(shù)值計算沒有本質(zhì)區(qū)別,所以馬爾沒有對“算法實現(xiàn)”進行任何探討。從現(xiàn)在神經(jīng)科學(xué)的進展看,“神經(jīng)計算”與數(shù)值計算在有些情況下會產(chǎn)生本質(zhì)區(qū)別,如目前興起的神經(jīng)形態(tài)計算( Neuromorphological computing),但總體上說,“數(shù)值計算”可以“模擬神經(jīng)計算”。至少從現(xiàn)在看,“算法的不同實現(xiàn)途徑”,并不影響馬爾計算視覺理論的本質(zhì)屬性。

 

1)計算理論(Computational Theory)

計算理論需要明確視覺目的, 或視覺的主要功能是什么。上世紀(jì)70年代,人們對大腦的認(rèn)識還非常粗淺,目前普遍使用的非創(chuàng)傷型成像手段,如功能核磁共振(FMRI)等,還沒有普及。所以,人們主要靠病理學(xué)和心理學(xué)結(jié)果來推斷生理功能。即使目前,人們對“視覺的主要功能”到底是什么,也仍然沒有定論。如近幾年,MIT的 DiCarlo等人提出了所謂的“目標(biāo)驅(qū)動的感知信息建?!狈椒ǎ╕amins &DiCarlo et al. 2016a)。他們猜測,猴子IT區(qū)(IT: interiortemporal cortex, 物體識別區(qū))的神經(jīng)元對物體的響應(yīng)(neuronal responses)“可以通過層次化的卷積神經(jīng)網(wǎng)絡(luò)”(HCNN: Hierarchical Convolutional Neural Networks )來建模。他們認(rèn)為,只要對HCNN在圖像物體分類任務(wù)下進行訓(xùn)練,則訓(xùn)練好的HCNN 可以很好定量預(yù)測IT 區(qū)神經(jīng)元的響應(yīng)(Yamins et al. 2014, 2016b)。由于僅僅“控制圖像分類性能”對IT神經(jīng)元響應(yīng)(群體神經(jīng)元對某一輸入圖像物體的響應(yīng),就是神經(jīng)元對該物體的表達(dá)或編碼)進行定量預(yù)測,所以他們將這種框架稱之為“目標(biāo)驅(qū)動的框架”。目標(biāo)驅(qū)動的框架提供了一種新的比較通用的建模群體神經(jīng)元編碼的途徑,但也存在很大的不足。能否像作者所言的那樣,僅僅靠“訓(xùn)練圖像分類的HCNN”就可以定量預(yù)測神經(jīng)元對圖像物體的響應(yīng),仍是一個有待進一步深入研究的課題。

 

馬爾認(rèn)為視覺不管有多少功能,主要功能在于“從視網(wǎng)膜成像的二維圖像來恢復(fù)空間物體的可見三維表面形狀”,稱之為“三維重建”(3D reconstruction)。而且,馬爾認(rèn)為,這種重建過程不是天生就有的,而是可以通過計算完成的。J.J. Gibson 等心理學(xué)家,包括格式塔心里學(xué)學(xué)派( Gestalt psychology),認(rèn)為視覺的很多功能是天生就有的??梢韵胂?,如果一種視覺功能與生具有,不可建模,就談不上計算,也許就不存在今天的“計算機視覺”這門學(xué)科了。

 

那么,馬爾的計算理論是什么呢?這一方面,馬爾在其書中似乎并不是介紹得特別具體。他舉了一個購買商品的例子,說明計算理論的重要性。如商店結(jié)賬要用加法而不是乘法。試想如果用乘法結(jié)賬,每個商品1元錢,則不管你購買多少件商品,你僅僅需要付一元錢。

 

馬爾的計算理論認(rèn)為,圖像是物理空間在視網(wǎng)膜上的投影,所以圖像信息蘊含了物理空間的內(nèi)在信息,因此,任何計算視覺計算理論和方法都應(yīng)該從圖像出發(fā),充分挖掘圖像所蘊含的對應(yīng)物理空間的內(nèi)在屬性。也就是說,馬爾的視覺計算理論就是要“挖掘關(guān)于成像物理場景的內(nèi)在屬性來完成相應(yīng)的視覺問題計算”。因為從數(shù)學(xué)的觀點看,僅僅從圖像出發(fā),很多視覺問題具有“歧義性”,如典型的左右眼圖像之間的對應(yīng)問題。如果沒有任何先驗知識,圖像點對應(yīng)關(guān)系不能確定。不管任何動物或人,生活的環(huán)境都不是隨機的,不管有意識或無意識,時時刻刻都在利用這些先驗知識,來解釋看到的場景和指導(dǎo)日常的行為和行動。如桌子上放一個水杯的場景,人們會正確地解釋為桌子上放了一個水杯,而不把他們看作一個新物體。當(dāng)然,人類也會經(jīng)常出錯,如大量錯覺現(xiàn)象。從這個意義上來說,讓計算機來模仿人類視覺是否一定是一條好的途徑也是一個未知的命題。飛機的飛行需要借助空氣動力學(xué)知識,而不是機械地模仿鳥如何飛。

 

2)表達(dá)和算法(Representationand Algorithm)

識別物體之前,不管是計算機還是人,大腦(或計算機內(nèi)存)中事先要有對該物體的存儲形式,稱之為物體表達(dá)(object representation). 馬爾視覺計算理論認(rèn)為,物體的表達(dá)形式為該物體的三維幾何形狀。馬爾當(dāng)時猜測,由于人在識別物體時與觀察物體的視角無關(guān),而不同視角下同一物體在視網(wǎng)膜上的成像又不同,所以物體在大腦中的表達(dá)不可能是二維的,可能是三維形狀,因為三維形狀不依賴于觀察視角。另外,當(dāng)時病理學(xué)研究發(fā)現(xiàn),有些病人無法辨認(rèn)“茶杯”,但可以毫無困難地畫出茶杯的形狀,因此馬爾覺得,這些病人也佐證了他的猜測。從目前對大腦的研究看,大腦的功能是分區(qū)的。物體的“幾何形狀”和“語義”儲存在不同的腦區(qū)。另外,物體識別也不是確切要與視角無關(guān),僅僅在一個比較小的變化范圍內(nèi)與視角無關(guān)。所以,從當(dāng)前的研究看,馬爾的物體的“三維表達(dá)”猜測基本上是不正確的,至少是不完全正確的,但馬爾的計算理論仍具有重要的理論意義和應(yīng)用價值。

 

簡言之,馬爾視覺計算理論的“物體表達(dá)”,是指“物體坐標(biāo)系下的三維形狀表達(dá)”。注意,從數(shù)學(xué)上來說,一個三維幾何形狀,選取的坐標(biāo)系不同,表達(dá)函數(shù)亦不同。如一個球體,如果以球心為坐標(biāo)原點,則球面可以簡單表達(dá)為:x^2+y^2+z^2=1。 但如果觀測者在x軸上2倍半徑處觀測,則可見球面部分在觀測者坐標(biāo)系下的方程為:x=2-sqrt(1-y^2-z^2)。由此可見,同一物體,選用的坐標(biāo)系不同,表達(dá)方式亦不同。馬爾將“觀測者坐標(biāo)系下的三維幾何形狀表達(dá)”稱之為“2.5維表達(dá)”,物體坐標(biāo)系下的表達(dá)為“三維表達(dá)”。所以,在后續(xù)的算法部分,馬爾研究了如何從圖像先計算“2.5維表達(dá)”,然后轉(zhuǎn)化為“三維表達(dá)”的計算方法和過程。

 

算法部分是馬爾計算視覺的主體內(nèi)容。馬爾認(rèn)為,從圖像到三維表達(dá),要經(jīng)過三個計算層次:首先從圖像得到一些基元(primal sketch), 然后通過立體視覺(stereopsis)等模塊將基元提升到2.5維表達(dá),提升到三維表達(dá)。

馬爾計算理論中算法的三個計算層次,首先從圖像提取邊緣信息(二階導(dǎo)數(shù)的過零點),然后提取點狀基元(blob, 線狀基元(edge)和桿狀基元 (bar), 進而對這些初級基元(raw primal sketch)組合形成完整基元(full primal sketch),上述過程為視覺計算理論的特征提取階段。在此基礎(chǔ)上,通過立體視覺和運動視覺等模塊,將基元提升到2.5維表達(dá)。將2.5維表達(dá)提升到三維表達(dá)。在馬爾的《視覺》一書中,著重介紹了特征提取和2.5維表達(dá)對應(yīng)的計算方法。在2.5維表達(dá)部分,也僅僅著重介紹了立體視覺和運動視覺部分。由于當(dāng)雙眼(左右相機)的相互位置已知時(計算機視覺中稱之為相機外參數(shù)),立體視覺就轉(zhuǎn)化為“左右圖像點的對應(yīng)問題”(image point correspondence), 所以,馬爾在立體視覺部分著重介紹了圖像點之間的匹配問題,即如何剔除誤匹配,并給出了對應(yīng)算法。

 

立體視覺等計算得到的三維空間點僅僅是在“觀測者坐標(biāo)系下的坐標(biāo)”,是物體的2.5維表示。如何進一步提升到物體坐標(biāo)系下的三維表示,馬爾給出了一些思路,但這方面都很粗泛。如確定物體的旋轉(zhuǎn)主軸等等,這部分內(nèi)容,類似于后來人們提出的“骨架模型”(skeleton model)構(gòu)造.