學(xué)習(xí)的勵(lì)志文章(2)
學(xué)習(xí)的勵(lì)志文章
學(xué)習(xí)的勵(lì)志文章:深度學(xué)習(xí)是什么?
作者:獵豹CEO傅盛
人工智能,就好像第四次工業(yè)革命,正從學(xué)術(shù)界的私藏,轉(zhuǎn)變?yōu)橐环N能夠改變世界的力量。尤其,以深度學(xué)習(xí)取得的進(jìn)步為顯著標(biāo)志。它讓匍匐前進(jìn)60年的人工智能一鳴驚人。我們正降落到一片新大陸。深度學(xué)習(xí)帶來的這場重大技術(shù)革命,有可能顛覆過去20年互聯(lián)網(wǎng)對技術(shù)的認(rèn)知,實(shí)現(xiàn)技術(shù)體驗(yàn)的跨越式發(fā)展。
那么,深度學(xué)習(xí)到底是什么?怎么理解它的重要性?
我們先從概念和現(xiàn)象入手。我總結(jié)了一句話,學(xué)術(shù)上看未必嚴(yán)謹(jǐn),但從我的理解角度看——深度學(xué)習(xí)是基于多層神經(jīng)網(wǎng)絡(luò)的,海量數(shù)據(jù)為輸入的,規(guī)則自學(xué)習(xí)方法。
這里包含了幾個(gè)關(guān)鍵詞:
第一個(gè)關(guān)鍵詞叫多層神經(jīng)網(wǎng)絡(luò)。
深度學(xué)習(xí)所基于的多層神經(jīng)網(wǎng)絡(luò)并非新鮮事物,甚至在80年代被認(rèn)為沒前途。但近年來,科學(xué)家們對多層神經(jīng)網(wǎng)絡(luò)的不斷算法優(yōu)化,使它出現(xiàn)了突破性的進(jìn)展。以往很多算法是線性的。而這世界上大多數(shù)事情的特征是復(fù)雜非線性的。比如貓的圖像中,就包含了顏色、形態(tài)、五官、光線等各種信息。深度學(xué)習(xí)的關(guān)鍵就是通過多層非線性映射將這些因素成功分開。
那為什么要深呢?多層神經(jīng)網(wǎng)絡(luò)比淺層的好處在哪兒呢?
簡單說,就是可以減少參數(shù)。因?yàn)樗貜?fù)利用中間層的計(jì)算單元。我們還是以認(rèn)貓為例好了。它可以學(xué)習(xí)貓的分層特征:最底層從原始像素開始學(xué)習(xí),刻畫局部的邊緣和紋;中層把各種邊緣進(jìn)行組合,描述不同類型的貓的器官;最高層描述的是整個(gè)貓的全局特征。它需要超強(qiáng)的計(jì)算能力,同時(shí)還不斷有海量數(shù)據(jù)的輸入。特別是在信息表示和特征設(shè)計(jì)方面,過去大量依賴人工,嚴(yán)重影響有效性和通用性。深度學(xué)習(xí)則徹底顛覆了“人造特征”的范式,開啟了數(shù)據(jù)驅(qū)動的“表示學(xué)習(xí)”范式——由數(shù)據(jù)自提取特征,計(jì)算機(jī)自己發(fā)現(xiàn)規(guī)則,進(jìn)行自學(xué)習(xí)。
你可以理解為——過去,人們對經(jīng)驗(yàn)的利用,靠人類自己完成。在深度學(xué)習(xí)呢?經(jīng)驗(yàn),以數(shù)據(jù)形式存在。因此,深度學(xué)習(xí),就是關(guān)于在計(jì)算機(jī)上從數(shù)據(jù)中產(chǎn)生模型的算法,即深度學(xué)習(xí)算法。
問題來了,幾年前講大數(shù)據(jù),以及各種算法,與深度學(xué)習(xí)有什么區(qū)別呢?
過去的算法模式,數(shù)學(xué)上叫線性,x和y的關(guān)系是對應(yīng)的,它是一種函數(shù)體現(xiàn)的映射。但這種算法在海量數(shù)據(jù)面前遇到了瓶頸。國際上著名的ImageNet圖像分類大賽,用傳統(tǒng)算法,識別錯(cuò)誤率一直降不下去,上深度學(xué)習(xí)后,錯(cuò)誤率大幅降低。在2010年,獲勝的系統(tǒng)只能正確標(biāo)記72%的圖片;到2012年,多倫多大學(xué)的 Geoff Hinton利用深度學(xué)習(xí)的新技術(shù),帶領(lǐng)團(tuán)隊(duì)實(shí)現(xiàn)了85%的準(zhǔn)確率。2015年的ImageNet競賽上,一個(gè)深度學(xué)習(xí)系統(tǒng)以96%的準(zhǔn)確率第一次超過了人類(人類平均有95%的準(zhǔn)確率)。
計(jì)算機(jī)認(rèn)圖的能力,已經(jīng)超過了人。尤其圖像和語音等復(fù)雜應(yīng)用,深度學(xué)習(xí)技術(shù)取得了優(yōu)越的性能。為什么呢?其實(shí)就是思路的革新。
舉幾個(gè)腦洞大開的例子。
先說計(jì)算機(jī)認(rèn)貓。我們通常能用很多屬性描述一個(gè)事物。其中有些屬性可能很關(guān)鍵,很有用,另一些屬性可能沒什么用。我們就將屬性被稱為特征。特征辨識,就是一個(gè)數(shù)據(jù)處理的過程。傳統(tǒng)算法認(rèn)貓,也是標(biāo)注各種特征去認(rèn)。就是大眼睛,有胡子,有花紋。但這種特征寫著寫著,有的貓和老虎就分不出來,狗和貓也分不出來。這種方法叫——人制定規(guī)則,機(jī)器學(xué)習(xí)這種規(guī)則。
深度學(xué)習(xí)方法怎么辦呢?直接給你百萬張圖片,說這里有貓,再給你上百萬張圖,說這里沒貓。然后再訓(xùn)練一個(gè)深度網(wǎng)絡(luò),通過深度學(xué)習(xí)自己去學(xué)貓的特征,計(jì)算機(jī)就知道了,誰是貓。
第二個(gè)例子是谷歌訓(xùn)練機(jī)械手抓取。
傳統(tǒng)方法肯定是看到那里有個(gè)機(jī)械手,就寫好函數(shù),move到xyz標(biāo)注的空間點(diǎn),利用程序?qū)崿F(xiàn)一次抓取。而谷歌現(xiàn)在用機(jī)器人訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò),幫助機(jī)器人根據(jù)攝像頭輸入和電機(jī)命令,預(yù)測抓取的結(jié)果。簡單說,就是訓(xùn)練機(jī)器人的手眼協(xié)調(diào)。機(jī)器人會觀測自己的機(jī)械臂,實(shí)時(shí)糾正抓取運(yùn)動。所有行為都從學(xué)習(xí)中自然浮現(xiàn),而不是依靠傳統(tǒng)的系統(tǒng)程序。
為了加快學(xué)習(xí)進(jìn)程,谷歌用了14個(gè)機(jī)械手同時(shí)工作,在將近3000小時(shí)的訓(xùn)練,相當(dāng)于80萬次抓取嘗試后,開始看到智能反應(yīng)行為的出現(xiàn)。據(jù)公開資料,沒有訓(xùn)練的機(jī)械手,前30次抓取失敗率為34%,而訓(xùn)練后,失敗率降低到18%。這就是一個(gè)自我學(xué)習(xí)的過程。
有人問了,深度學(xué)習(xí),能學(xué)習(xí)寫文章嗎?
來看這個(gè)例子。斯坦福大學(xué)的計(jì)算機(jī)博士andrej kapathy曾用托爾斯泰的小說《戰(zhàn)爭與和平》來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。每訓(xùn)練100個(gè)回合,就叫它寫文章。100個(gè)回合后,機(jī)器知道要空格,但仍然有亂碼。500個(gè)回合后,能正確拼寫一些短單詞。1200個(gè)回合后,有標(biāo)點(diǎn)符號和長單詞。2000個(gè)回合后,已經(jīng)可以正確拼寫更復(fù)雜的語句。
整個(gè)演化過程是個(gè)什么情況呢?以前我們寫文章,只要告訴主謂賓。而以上過程,完全沒人告訴機(jī)器語法規(guī)則。甚至,連標(biāo)點(diǎn)和字母區(qū)別都不用告訴它。不告訴機(jī)器任何程序。只是不停將原始數(shù)據(jù)進(jìn)行訓(xùn)練,一層一層訓(xùn)練,最后輸出結(jié)果——就是一個(gè)個(gè)看得懂的語句。一切看起來都很有趣。人工智能與深度學(xué)習(xí)的美妙之處,也正在于此。
我還去硅谷看過一家公司——完全顛覆以往的算法,利用深度學(xué)習(xí)實(shí)現(xiàn)圖像深度信息的采集。
眾所周知,市面上已經(jīng)有無人機(jī),可實(shí)現(xiàn)人的跟蹤。它的方法是什么呢?一個(gè)人,在圖像系統(tǒng)里,一堆色塊的組合。通過人工的方式進(jìn)行特征選擇,比如顏色特征,梯度特征。拿簡單的顏色特征舉例:比如你穿著綠色衣服,突然走進(jìn)草叢,就可能跟丟?;颍摿思路?,幾個(gè)人很相近,也容易跟丟。此時(shí),若想在這個(gè)基礎(chǔ)上繼續(xù)優(yōu)化,將顏色特征進(jìn)行某些調(diào)整,是非常困難的。而且調(diào)整后,還會存在對過去某些狀況不適用的問題。
總之,這樣的算法需要不停迭代,迭代又會影響前面的效果。而硅谷這個(gè)團(tuán)隊(duì),利用深度學(xué)習(xí),把所有人腦袋做出來,只區(qū)分好前景和背景。區(qū)分之后,背景全部用數(shù)學(xué)方式隨意填充,再不斷生產(chǎn)大量背景數(shù)據(jù),進(jìn)行自學(xué)習(xí)。只要把前景學(xué)習(xí)出來就行。
據(jù)我所知,很多傳統(tǒng)方法,還在采用雙目視覺。用計(jì)算機(jī)去做局部匹配,再根據(jù)雙目測出的兩個(gè)匹配的差距,去推算空間另一個(gè)點(diǎn)和它的三角位置,從而判斷離你多遠(yuǎn)??上攵?,深度學(xué)習(xí)的出現(xiàn),使得很多公司辛苦積累的軟件算法直接作廢了。“算法為核心競爭力”,正在轉(zhuǎn)變?yōu)椋?ldquo;數(shù)據(jù)為核心競爭力”。技術(shù)人員必須進(jìn)入新的起跑線。
最后再舉個(gè)例子。
大家都做過胃鏡。尤其胃痛,很痛苦。腸胃鏡要分開做,而且小腸看不見。有一家公司出了一種膠囊攝像頭。吃進(jìn)去后,在你的消化道,每5秒拍一幅圖,連續(xù)攝像,此后再排出膠囊。所有關(guān)于腸道胃部的問題,全部完整記錄。但醫(yī)生光把那個(gè)圖看完,就需要五個(gè)小時(shí)。原本的機(jī)器主動檢測漏檢率高,要醫(yī)生復(fù)查。后來,他們采用深度學(xué)習(xí)。采集8000多例圖片數(shù)據(jù)灌進(jìn)去,用機(jī)器不斷學(xué),不僅提高診斷精確率,減少了醫(yī)生的漏診,以及對稀缺好醫(yī)生的經(jīng)驗(yàn)依賴。只需要靠機(jī)器自己去學(xué)習(xí)規(guī)則。
深度學(xué)習(xí)算法,可以幫助醫(yī)生作出決策。
了解完深度學(xué)習(xí),接著思考一個(gè)問題——20世紀(jì)70年代末80年代初,個(gè)人電腦突飛猛進(jìn)時(shí),人工智能的商業(yè)化卻步履維艱。喬布斯曾這樣定義個(gè)人計(jì)算機(jī)的價(jià)值——“它是我們思維的自行車”。那么,今天的人工智能呢?深度學(xué)習(xí)呢?它給我們真正帶來的東西是什么?未來,對行業(yè)和社會有什么影響?中國公司的機(jī)會在哪?
看了“學(xué)習(xí)的勵(lì)志文章”的人還看了: