從機器人到藥物設計,我們很難錯過近期在新聞和我們辦公室里的“深入學習”。事實上,視覺是在我們的分類工作中利用深度學習和卷積神經(jīng)網(wǎng)絡。什么是深度學習,為什么這么多人都聽說過?這篇文章針對的是數(shù)據(jù)科學家和機器學習實踐者,他們可能聽說過一些關(guān)于深度學習的知識,并且對了解這些嗡嗡聲是什么感興趣。不管你的背景如何,希望你能看到如何深入的學習可以應用到你的領域。至少,你會有更好的裝備來接受媒體關(guān)于深度學習的報道!
深度學習,是什么?
簡單地說,深入學習是:
1、大量的統(tǒng)計機器學習技術(shù)
2、支持特征層次的自動學習。
3、通?;谌斯ど窠?jīng)網(wǎng)絡
這就是要點。對于一些看起來相當直截了當?shù)氖虑?,在新聞中有很多關(guān)于已經(jīng)取得的成就和將來可能用深度學習技術(shù)所做的事情的炒作。讓我們從一個已經(jīng)取得的成就的例子開始,來說明為什么它得到了如此多的關(guān)注。
然而,一個常見的誤解是“深度學習”和“無監(jiān)督學習”是同一個概念。目前有許多與神經(jīng)網(wǎng)絡無關(guān)的無監(jiān)督學習技術(shù),幾十年來,神經(jīng)網(wǎng)絡一直被用于有監(jiān)督的學習任務。此外,近年來,采用強化或半監(jiān)督學習的深度學習方法得到了成功的應用,但后兩種方法已經(jīng)使用了幾十年。
較重要的是,深度學習擅長于基本單元、單個像素、單個頻率或單個單詞/字符本身幾乎沒有意義的任務,但這些單元的組合具有有用的意義。
深入學習可以在沒有人類干預的情況下學習這種有用的價值觀組合。在討論深度學習從數(shù)據(jù)中學習特征的能力時,普遍使用的示例是手寫數(shù)字的MNIST數(shù)據(jù)集。當有數(shù)以萬計的手寫數(shù)字時,深度神經(jīng)網(wǎng)絡可以了解到,當試圖對數(shù)字進行分類時,尋找循環(huán)和線條是很有用的。
原始輸入數(shù)字在圖像的左邊。在右邊,我們看到了學習特性(過濾器)的圖形表示。從本質(zhì)上講,網(wǎng)絡學會了檢測線路和環(huán)路。
標準的神經(jīng)網(wǎng)絡是由“神經(jīng)元”層組成的
這些層通常只是前饋,并通過實例進行訓練(用于分類或回歸)。靈長類動物的大腦在視覺皮層上也會做類似的事情,所以希望在神經(jīng)網(wǎng)絡中使用更多的層,可以讓它學習更好的模型。然而,研究人員發(fā)現(xiàn),具有多層結(jié)構(gòu)的訓練模型不起作用。一般的理解是,只有淺層網(wǎng)絡(1-2層)才能被成功地訓練.標準的淺層神經(jīng)網(wǎng)絡只有一層數(shù)據(jù)表示(見下圖)。在深度神經(jīng)網(wǎng)絡中學習,其中一個有一個或兩個以上的數(shù)據(jù)表示層,似乎是不可行的。事實上,深度學習已經(jīng)存在很久了,就像神經(jīng)網(wǎng)絡一樣–我們只是無法讓它發(fā)揮作用。
神經(jīng)網(wǎng)絡中的每個連續(xù)層都使用上一層的特征來學習更復雜的特征。
在較低的級別上,網(wǎng)絡專注于本地對比的模式,這是非常重要的。然后,下面這一層就可以使用這些局部對比的模式來專注于類似眼睛、鼻子和嘴巴的東西。頂層能夠?qū)⑦@些面部特征應用到人臉模板中。深層神經(jīng)網(wǎng)絡能夠在其連續(xù)的每一層中合成復雜程度越來越高的特征。
正是這種對數(shù)據(jù)表示和特性的自動學習,才是炒作的全部內(nèi)容。這種深度神經(jīng)網(wǎng)絡的應用已經(jīng)出現(xiàn)了一些模型,它們成功地學習了圖像、音頻和書面語言的有用的層次表示。這些領域中的這些學習特性層次結(jié)構(gòu)可以解釋為:
圖像識別:像素→邊緣→紋理→母?!考鷮ο?/span>
文本:字符→單詞→詞組→子句→句子
講演:樣品→光譜帶→聲音→電話→音素
其中一些曾經(jīng)被認為是機器學習中的難題,這就是為什么深層神經(jīng)網(wǎng)絡引起了如此多的關(guān)注。可以肯定的是,深造將是未來更多項目的秘密要素。
總之,這些突破使深層神經(jīng)網(wǎng)絡能夠自動學習豐富的數(shù)據(jù)表示。這一成就在計算機視覺、語音識別和自然語言處理等領域特別有用。
卷積神經(jīng)網(wǎng)絡
卷積神經(jīng)網(wǎng)絡(CNNs)是一種深度學習的變體,是通過對視覺皮層局部敏感和定向選擇性神經(jīng)細胞的神經(jīng)生物學研究而產(chǎn)生的。卷積神經(jīng)網(wǎng)絡是一種特殊的多層神經(jīng)網(wǎng)絡,它具有以下特點:CNN是一種從圖像中提取拓撲特征的前饋網(wǎng)絡。和其他幾乎所有的神經(jīng)網(wǎng)絡一樣,它是由反向傳播算法的一個版本來訓練的。CNN的設計是為了直接從像素圖像中識別視覺模式,并進行小到無預處理.它們可以識別具有可變性的模式,如手寫文本和自然圖像。CNN通常由卷積層、次采樣層和完全連接層組成。在CNN中,連續(xù)的卷積和次采樣層通常是交替的。
卷積神經(jīng)網(wǎng)絡直到近期才成為計算機視覺應用的主流。在過去的3年中,cnn在計算機視覺問題上取得了較先進的性能,包括圖像分類、目標檢測、細粒度分類、圖像分割、姿態(tài)估計和自然圖像中的ocr等。通常在這些工作中,CNN是以端到端的方式進行培訓的,并且提供的結(jié)果比依賴精心設計的表示方式(如SIFT或HOG特性)的系統(tǒng)要好得多。這一成功在一定程度上可以歸因于CNN對局部圖像轉(zhuǎn)換的內(nèi)建不變性,這是它們學習數(shù)據(jù)分層抽象的能力的基礎。
Vision目前在我們的分類工作中與CNN一起工作,特別是對白細胞。我們注意到,與其他分類技術(shù)相比,這種方法產(chǎn)生了更快、更準確的結(jié)果。我們正在推進我們在深入學習和卷積神經(jīng)網(wǎng)絡方面的工作,并期待著將這些網(wǎng)絡的優(yōu)勢傳遞給我們的客戶,繼續(xù)關(guān)注!