關(guān)于多媒體技術(shù)論文
關(guān)于多媒體技術(shù)論文
隨著信息科技的快速發(fā)展,多媒體技術(shù)在教育領(lǐng)域也獲得了空前的飛速發(fā)展。下面是學(xué)習(xí)啦小編整理的關(guān)于多媒體技術(shù)論文,希望你能從中得到感悟!
關(guān)于多媒體技術(shù)論文篇一
多媒體技術(shù)漫談
摘要:這篇文章,主要是從宏觀上總結(jié)了一下現(xiàn)階段圖像視頻底層技術(shù)的發(fā)展及應(yīng)用點(diǎn),從一個(gè)圖像視頻算法研究人員的角度談一談對這個(gè)領(lǐng)域的認(rèn)識。圖像視頻領(lǐng)域的商業(yè)應(yīng)用,集中在多媒體娛樂、互聯(lián)網(wǎng)、智能監(jiān)控、工業(yè)機(jī)器視覺、OCR、生物特征識別、醫(yī)學(xué)圖像處理以及軍事國防幾個(gè)領(lǐng)域,多媒體領(lǐng)域是其中的一個(gè)重要分支,很多圖像視頻領(lǐng)域的新算法和新理論往往在多媒體領(lǐng)域得到最先的應(yīng)用。
關(guān)鍵詞:多媒體;視頻智能編輯;視頻感興趣區(qū);圖像視頻場景分析
中圖分類號:TP37 文獻(xiàn)標(biāo)識碼:A文章編號:1007-9599(2012)01-0000-02
Multimedia Technology Study
Du Pengxiang,Huang Shanshi
(China Telecom Co.,Ltd.,Wenzhou Branch,Wenzhou325000,China)
Abstract:This article is from the macro summarizes the development and application point of the current image video of the underlying technology from the perspective of an image of video algorithms researchers talk about the understanding of this area.The field of image and video business applications, multimedia entertainment,the Internet, intelligent monitoring,industrial machine vision,OCR,biometrics, medical image processing,as well as military defense in several areas, multimedia areas is an important branch of a lot of image field of video the new algorithms and new theories are often the first application in the multimedia field.
Keywords:Multimedia;Video intelligent editing;Video interest region;Image video scene analysis
多媒體領(lǐng)域主要集中了MicroSoft、Adobe、MITSUBISHI、Cyberlink、Muvee、Autodesk、Corel、Sony、2D3、MotionDSP等一批公司,以及與之相關(guān)的PAMI、IJCV、CVPR、ICCV、ECCV、SIGRAPH等眾多多高水平的學(xué)術(shù)期刊和學(xué)術(shù)會(huì)議。多媒體領(lǐng)域的研究方向比較雜,包括但不限于下面幾類,視頻智能編輯、視頻感興趣區(qū)、圖像視頻場景分析、圖像視頻修復(fù)及后處理、人臉系列技術(shù)、非真實(shí)感渲染(NPL)系列技術(shù)、3D系列技術(shù)、人機(jī)交互技術(shù)等。
一、視頻智能編輯
主要包括視頻鏡頭邊界檢測以及在此基礎(chǔ)上的視頻自動(dòng)故事片生成、視頻廣告檢測、視頻廢鏡頭檢測等。視頻鏡頭邊界檢測在經(jīng)歷了一段時(shí)間的發(fā)展之后,檢測率也達(dá)到一定的程度,目前基本上不再有新的文章出現(xiàn)。視頻自動(dòng)故事片生成往往需要音視頻技術(shù)的結(jié)合,并且由于缺乏有效的評級機(jī)制,最近幾年已經(jīng)不是研究的熱點(diǎn),但是相信各個(gè)視頻編輯領(lǐng)域的公司仍在研究或者開發(fā)過程之中。視頻中的廣告檢測作為其中的一個(gè)小的分支,可能因?yàn)闆]有很大的商業(yè)價(jià)值,研究的并不多,但想要真正實(shí)現(xiàn)高的檢測率,仍然有很多值得研究的地方。視頻廢鏡頭檢測其實(shí)是視頻修復(fù)的一部分,包括檢測視頻中的抖動(dòng)片段、模糊片段、過曝過暗片段等,從而達(dá)到視頻修復(fù)的目的。
(一)視頻感興趣區(qū)的研究
最近是一個(gè)熱點(diǎn)方向,感興趣區(qū)提取和跟蹤可以用來做視頻智能縮放,可以用來指導(dǎo)視頻編輯中的精彩視頻片段選擇,還可以在片源采集時(shí)就用來指導(dǎo)攝像機(jī)捕捉精彩片段。人臉、人物、車輛、小動(dòng)物、房屋、花草樹木等在特定的場景下等都可以作為感興趣區(qū),感興趣區(qū)提取的方式方法也比較多,但除了人臉、人物檢測技術(shù)上還比較成熟之外,其他目標(biāo)的檢測很難達(dá)到滿意的準(zhǔn)確度。人物檢測基礎(chǔ)上的精細(xì)分割摳像技術(shù),也是圖像領(lǐng)域的一個(gè)基礎(chǔ)研究方向,準(zhǔn)確的摳像,是換背景等智能化效果的基礎(chǔ)。
(二)圖像視頻場景分析
主要用在視頻管理和視頻按場景選擇和編輯。通過對不同的場景的特征進(jìn)行分析設(shè)計(jì)分類器進(jìn)行分類,對于視頻管理這種不要求很高精度的應(yīng)用點(diǎn)可以滿足要求。照片和視頻按場景內(nèi)容管理,跟基于人臉識別技術(shù)的照片管理,是基于內(nèi)容管理的兩個(gè)方式,相信今后的多媒體編輯和管理軟件都會(huì)逐步增加這個(gè)功能。
(三)圖像視頻的修復(fù)及后處理
主要包括視頻抖動(dòng)修復(fù)、圖像視頻去模糊、視頻過曝過暗修復(fù)、視頻去霧化、老電影舊照片修復(fù)、馬賽克修復(fù)、視頻圖像超分辨率、視頻圖像智能變比例縮放、視頻幀插值、圖像視頻去噪等。
視頻抖動(dòng)修復(fù)關(guān)鍵是攝像機(jī)軌跡的檢測,確定了攝像機(jī)的移動(dòng)軌跡,視頻修復(fù)就有了基礎(chǔ)的指導(dǎo)。通過尋找視頻中的特征點(diǎn),然后對特征點(diǎn)進(jìn)行跟蹤,通過分析每個(gè)特征點(diǎn)的軌跡,確定攝像機(jī)的整體軌跡。如果假定視頻中的內(nèi)容都是一個(gè)平面上,只考慮攝像機(jī)在2D平面的軌跡,事情要容易的多,但事實(shí)上攝像機(jī)的軌跡應(yīng)該是3D的,這就變成了一個(gè)“Structure from Motion”的問題,處理起來就比較復(fù)雜,但如果想得到理想的穩(wěn)像效果,得出攝像機(jī)3D軌跡是必須的。另外,攝像機(jī)3D軌跡的求取,也是其他基于3D的視頻應(yīng)用的基礎(chǔ),這個(gè)后面再講。
圖像視頻去模糊,這個(gè)的關(guān)鍵是尋找模糊核,也就是拍攝的瞬間攝像機(jī)或相機(jī)的運(yùn)動(dòng)軌跡,在這個(gè)運(yùn)動(dòng)軌跡上反卷積,就可以恢復(fù)攝像機(jī)不動(dòng)情況下拍攝的視頻、圖像,也就是不模糊的視頻、圖像了。所以,對視頻的去模糊,比起對圖像的去模糊,手段要多一些,因?yàn)橐曨l去模糊可以通過視頻序列的信息來得到攝像機(jī)的運(yùn)動(dòng)軌跡。而圖像的去模糊,這個(gè)運(yùn)動(dòng)軌跡只能是通過對圖像內(nèi)部結(jié)構(gòu)的分析進(jìn)行估計(jì)??紤]到軌跡估計(jì)和反卷積的運(yùn)算量,不管是圖像去模糊還是視頻去模糊,目前都不算很成熟,但是成熟的產(chǎn)品應(yīng)該會(huì)在短期內(nèi)出現(xiàn)。
視頻過曝過暗修復(fù),如果視頻質(zhì)量不是太差,直方圖被擠壓的不是太厲害,還可以通過直方圖均衡化的方式進(jìn)行簡單修復(fù),但是如果直方圖被擠壓的很嚴(yán)重,那就只能刪除了。
視頻、圖像去霧化,簡單點(diǎn)說,就是把被霧化的圖像建模為一個(gè)正常的無霧的圖像與純霧的圖像的合成,因?yàn)榕臄z得到圖像中霧的灰度值與景深有關(guān),所以好的去霧算法,應(yīng)該是以準(zhǔn)確的景深估計(jì)為基礎(chǔ)的,3D景深估計(jì)也是一個(gè)很熱的方向。
老電影舊照片修復(fù),大概包括色彩的修復(fù)和一些劃痕修復(fù),色彩修復(fù),可以以類似去霧的建模方式,也可以簡單的做色調(diào)調(diào)節(jié),問題都不大。劃痕修復(fù)就比較復(fù)雜,除了要把劃痕檢測到,還要用周圍的像素來填充劃痕的像素,比較典型的全變分方法可以用來處理這類問題。
馬賽克修復(fù),馬賽克修復(fù)基本上還是要從產(chǎn)生的原因入手,如果是編解碼層的問題,可以對編解碼的數(shù)據(jù)嘗試修復(fù)。如果到了解碼后的圖像數(shù)據(jù),想要修復(fù)就是一個(gè)無中生有的問題了,只能是依靠邊緣紋理來去掉馬賽克的效果,但是想要恢復(fù)圖像內(nèi)容,除非后臺(tái)有一個(gè)強(qiáng)大的針對特定目標(biāo)的數(shù)據(jù)庫來支持虛構(gòu)類似的內(nèi)容,否則毫無辦法。
視頻、圖像超分辨率,超分辨率的方法,總體來說兩種思路,一種是挖掘圖像的邊緣信息,在圖像放大的時(shí)候,盡量保邊緣,這類方法以NEDI方法為典型,缺點(diǎn)是速度比較慢。另一類是基于Patch的方法,首先建立一個(gè)低分辨率Patch對應(yīng)高分辨率Patch的映射表,前期先把這個(gè)映射關(guān)系建立好,然后就只需要通過查找映射表來進(jìn)行超分辨率操作了。如果建立的映射表足夠大,那就可以得到比較理想的超分辨率結(jié)果,理論上講不論速度還是質(zhì)量都比前一種方法要好。
視頻圖像智能變比例縮放,是指通過分析圖像視頻中的內(nèi)容,在圖像、視頻縮放的過程中,保留有內(nèi)容的關(guān)鍵區(qū)域比例不變,而壓縮、擴(kuò)展不重要的區(qū)域,這樣看起來縮放后的圖像、視頻主要內(nèi)容不會(huì)變形?;趫D像的智能縮放算法比較成熟,基于視頻的由于要考慮視頻序列的前后幀的連續(xù)性,必須加入時(shí)間軸的約束,因此效果不如圖像理想,做的不好會(huì)引出視頻的抖動(dòng)問題。
視頻幀插值,可以用來解決幀率變化的情況下,出現(xiàn)的視頻抖動(dòng)問題,主要是一個(gè)視頻的全局運(yùn)動(dòng),類似于視頻抖動(dòng)檢測,應(yīng)該說技術(shù)上不復(fù)雜,但是視頻中的局部運(yùn)動(dòng)會(huì)干擾全局的運(yùn)動(dòng)估計(jì),這樣插值出來的幀就會(huì)存在一定的瑕疵。
圖像視頻去噪,方法很多,簡單點(diǎn)通過濾波高頻信號的方法如高斯濾波,或者簡單的中值濾波都可以有一定的效果,但是目前看來,最理想的方法還是非局部均值(NLM)方法。其他的一些例如偏微分方程的方法也可以嘗試。
五、人臉系列技術(shù)
包括人臉檢測、跟蹤,人臉特征點(diǎn)定位,人臉識別,人臉的表情識別,人的年齡、性別識別,人臉的美化,人臉卡通效果,人臉的變形效果,人臉的3D重建等以及與此相關(guān)的眼睛檢測和紅眼修復(fù)等。
六、非真實(shí)感渲染(NPL)系列技術(shù)
包括水墨畫、水彩畫、油畫、漫畫效果等人工畫效果,風(fēng)、雪、雨、煙、霧、火焰、海浪等一些自然環(huán)境的模擬效果。
人工畫效果的實(shí)現(xiàn)主要是基于Stroke的方式,難點(diǎn)在于圖像的解析,一個(gè)好的人工畫效果,需要正確的將圖像分解為不同的區(qū)域,并分析不同區(qū)域的結(jié)構(gòu)特點(diǎn)來確定用筆方式、Stroke的精細(xì)度等參數(shù)。
對自然環(huán)境的模擬,主要是一些粒子的模擬,可以采用基于物理模型的方式研究粒子的受力及運(yùn)動(dòng)方式,流體力學(xué)的相關(guān)方法是這個(gè)領(lǐng)域的核心。
NPL技術(shù),除了用于對圖像、視頻的特效上,另外像一些煙霧效果和水墨畫效果用于藝術(shù)字的特效也是不錯(cuò)的選擇。
七、3D系列技術(shù)
3D技術(shù)在視頻中的應(yīng)用點(diǎn),可以看到的有3D穩(wěn)像、3D對象嵌入等等,這里的關(guān)鍵是獲取攝像機(jī)的3D軌跡與視頻中的特征點(diǎn)的3D深度信息,通過視頻序列分析攝像機(jī)的3D軌跡的技術(shù)叫“Structure from Motion”,大量的文章可以參考。有了攝像機(jī)的3D軌跡與視頻中的特征點(diǎn)的3D深度信息,2維的圖像信息就一定程度擴(kuò)展到了3維。全景圖的拼接技術(shù),本質(zhì)上也利用了基于雙目視覺3維重構(gòu)的一部分技術(shù)。得到了3D攝像頭軌跡,可以利用這個(gè)信息進(jìn)行3D插幀,借此虛擬重構(gòu)雙目視覺畫面,通過3D眼鏡,就可以看到比較理想的3D場景了。3D的應(yīng)用,可以想象的空間比較大,多了一維信息,總可以做出一些新的東西。
八、人機(jī)交互技術(shù)
人機(jī)交互是指通過攝像頭捕捉人的手勢、身體的姿態(tài)、面部表情、眼睛的移動(dòng)等信息,代替?zhèn)鹘y(tǒng)的鼠標(biāo)鍵盤來指導(dǎo)計(jì)算機(jī)做出相應(yīng)的處理。技術(shù)層面主要涉及目標(biāo)的檢測、跟蹤以及姿態(tài)的識別。相比之前提到的多媒體的各種方向,人機(jī)交互應(yīng)該是最有市場前景的方向,應(yīng)用點(diǎn)也非常多。
九、結(jié)論:
除了上述的這些技術(shù)方向之外,在此基礎(chǔ)上或者與這些技術(shù)相關(guān)的一些其他的應(yīng)用也可能不斷的出現(xiàn),多媒體領(lǐng)域可以說是人工智能的一個(gè)試驗(yàn)田,很多即使不成熟的新技術(shù)都很可能首先在這個(gè)領(lǐng)域出現(xiàn)和發(fā)展。這個(gè)領(lǐng)域幾乎可以囊括圖像視頻處理、模式識別的所有底層技術(shù),必然可以衍生出很多很雜的應(yīng)用點(diǎn)。
點(diǎn)擊下頁還有更多>>>關(guān)于多媒體技術(shù)論文