關于多媒體技術論文
關于多媒體技術論文
隨著信息科技的快速發(fā)展,多媒體技術在教育領域也獲得了空前的飛速發(fā)展。下面是學習啦小編整理的關于多媒體技術論文,希望你能從中得到感悟!
關于多媒體技術論文篇一
多媒體技術漫談
摘要:這篇文章,主要是從宏觀上總結了一下現(xiàn)階段圖像視頻底層技術的發(fā)展及應用點,從一個圖像視頻算法研究人員的角度談一談對這個領域的認識。圖像視頻領域的商業(yè)應用,集中在多媒體娛樂、互聯(lián)網(wǎng)、智能監(jiān)控、工業(yè)機器視覺、OCR、生物特征識別、醫(yī)學圖像處理以及軍事國防幾個領域,多媒體領域是其中的一個重要分支,很多圖像視頻領域的新算法和新理論往往在多媒體領域得到最先的應用。
關鍵詞:多媒體;視頻智能編輯;視頻感興趣區(qū);圖像視頻場景分析
中圖分類號:TP37 文獻標識碼:A文章編號:1007-9599(2012)01-0000-02
Multimedia Technology Study
Du Pengxiang,Huang Shanshi
(China Telecom Co.,Ltd.,Wenzhou Branch,Wenzhou325000,China)
Abstract:This article is from the macro summarizes the development and application point of the current image video of the underlying technology from the perspective of an image of video algorithms researchers talk about the understanding of this area.The field of image and video business applications, multimedia entertainment,the Internet, intelligent monitoring,industrial machine vision,OCR,biometrics, medical image processing,as well as military defense in several areas, multimedia areas is an important branch of a lot of image field of video the new algorithms and new theories are often the first application in the multimedia field.
Keywords:Multimedia;Video intelligent editing;Video interest region;Image video scene analysis
多媒體領域主要集中了MicroSoft、Adobe、MITSUBISHI、Cyberlink、Muvee、Autodesk、Corel、Sony、2D3、MotionDSP等一批公司,以及與之相關的PAMI、IJCV、CVPR、ICCV、ECCV、SIGRAPH等眾多多高水平的學術期刊和學術會議。多媒體領域的研究方向比較雜,包括但不限于下面幾類,視頻智能編輯、視頻感興趣區(qū)、圖像視頻場景分析、圖像視頻修復及后處理、人臉系列技術、非真實感渲染(NPL)系列技術、3D系列技術、人機交互技術等。
一、視頻智能編輯
主要包括視頻鏡頭邊界檢測以及在此基礎上的視頻自動故事片生成、視頻廣告檢測、視頻廢鏡頭檢測等。視頻鏡頭邊界檢測在經(jīng)歷了一段時間的發(fā)展之后,檢測率也達到一定的程度,目前基本上不再有新的文章出現(xiàn)。視頻自動故事片生成往往需要音視頻技術的結合,并且由于缺乏有效的評級機制,最近幾年已經(jīng)不是研究的熱點,但是相信各個視頻編輯領域的公司仍在研究或者開發(fā)過程之中。視頻中的廣告檢測作為其中的一個小的分支,可能因為沒有很大的商業(yè)價值,研究的并不多,但想要真正實現(xiàn)高的檢測率,仍然有很多值得研究的地方。視頻廢鏡頭檢測其實是視頻修復的一部分,包括檢測視頻中的抖動片段、模糊片段、過曝過暗片段等,從而達到視頻修復的目的。
(一)視頻感興趣區(qū)的研究
最近是一個熱點方向,感興趣區(qū)提取和跟蹤可以用來做視頻智能縮放,可以用來指導視頻編輯中的精彩視頻片段選擇,還可以在片源采集時就用來指導攝像機捕捉精彩片段。人臉、人物、車輛、小動物、房屋、花草樹木等在特定的場景下等都可以作為感興趣區(qū),感興趣區(qū)提取的方式方法也比較多,但除了人臉、人物檢測技術上還比較成熟之外,其他目標的檢測很難達到滿意的準確度。人物檢測基礎上的精細分割摳像技術,也是圖像領域的一個基礎研究方向,準確的摳像,是換背景等智能化效果的基礎。
(二)圖像視頻場景分析
主要用在視頻管理和視頻按場景選擇和編輯。通過對不同的場景的特征進行分析設計分類器進行分類,對于視頻管理這種不要求很高精度的應用點可以滿足要求。照片和視頻按場景內容管理,跟基于人臉識別技術的照片管理,是基于內容管理的兩個方式,相信今后的多媒體編輯和管理軟件都會逐步增加這個功能。
(三)圖像視頻的修復及后處理
主要包括視頻抖動修復、圖像視頻去模糊、視頻過曝過暗修復、視頻去霧化、老電影舊照片修復、馬賽克修復、視頻圖像超分辨率、視頻圖像智能變比例縮放、視頻幀插值、圖像視頻去噪等。
視頻抖動修復關鍵是攝像機軌跡的檢測,確定了攝像機的移動軌跡,視頻修復就有了基礎的指導。通過尋找視頻中的特征點,然后對特征點進行跟蹤,通過分析每個特征點的軌跡,確定攝像機的整體軌跡。如果假定視頻中的內容都是一個平面上,只考慮攝像機在2D平面的軌跡,事情要容易的多,但事實上攝像機的軌跡應該是3D的,這就變成了一個“Structure from Motion”的問題,處理起來就比較復雜,但如果想得到理想的穩(wěn)像效果,得出攝像機3D軌跡是必須的。另外,攝像機3D軌跡的求取,也是其他基于3D的視頻應用的基礎,這個后面再講。
圖像視頻去模糊,這個的關鍵是尋找模糊核,也就是拍攝的瞬間攝像機或相機的運動軌跡,在這個運動軌跡上反卷積,就可以恢復攝像機不動情況下拍攝的視頻、圖像,也就是不模糊的視頻、圖像了。所以,對視頻的去模糊,比起對圖像的去模糊,手段要多一些,因為視頻去模糊可以通過視頻序列的信息來得到攝像機的運動軌跡。而圖像的去模糊,這個運動軌跡只能是通過對圖像內部結構的分析進行估計??紤]到軌跡估計和反卷積的運算量,不管是圖像去模糊還是視頻去模糊,目前都不算很成熟,但是成熟的產(chǎn)品應該會在短期內出現(xiàn)。
視頻過曝過暗修復,如果視頻質量不是太差,直方圖被擠壓的不是太厲害,還可以通過直方圖均衡化的方式進行簡單修復,但是如果直方圖被擠壓的很嚴重,那就只能刪除了。
視頻、圖像去霧化,簡單點說,就是把被霧化的圖像建模為一個正常的無霧的圖像與純霧的圖像的合成,因為拍攝得到圖像中霧的灰度值與景深有關,所以好的去霧算法,應該是以準確的景深估計為基礎的,3D景深估計也是一個很熱的方向。
老電影舊照片修復,大概包括色彩的修復和一些劃痕修復,色彩修復,可以以類似去霧的建模方式,也可以簡單的做色調調節(jié),問題都不大。劃痕修復就比較復雜,除了要把劃痕檢測到,還要用周圍的像素來填充劃痕的像素,比較典型的全變分方法可以用來處理這類問題。
馬賽克修復,馬賽克修復基本上還是要從產(chǎn)生的原因入手,如果是編解碼層的問題,可以對編解碼的數(shù)據(jù)嘗試修復。如果到了解碼后的圖像數(shù)據(jù),想要修復就是一個無中生有的問題了,只能是依靠邊緣紋理來去掉馬賽克的效果,但是想要恢復圖像內容,除非后臺有一個強大的針對特定目標的數(shù)據(jù)庫來支持虛構類似的內容,否則毫無辦法。
視頻、圖像超分辨率,超分辨率的方法,總體來說兩種思路,一種是挖掘圖像的邊緣信息,在圖像放大的時候,盡量保邊緣,這類方法以NEDI方法為典型,缺點是速度比較慢。另一類是基于Patch的方法,首先建立一個低分辨率Patch對應高分辨率Patch的映射表,前期先把這個映射關系建立好,然后就只需要通過查找映射表來進行超分辨率操作了。如果建立的映射表足夠大,那就可以得到比較理想的超分辨率結果,理論上講不論速度還是質量都比前一種方法要好。
視頻圖像智能變比例縮放,是指通過分析圖像視頻中的內容,在圖像、視頻縮放的過程中,保留有內容的關鍵區(qū)域比例不變,而壓縮、擴展不重要的區(qū)域,這樣看起來縮放后的圖像、視頻主要內容不會變形?;趫D像的智能縮放算法比較成熟,基于視頻的由于要考慮視頻序列的前后幀的連續(xù)性,必須加入時間軸的約束,因此效果不如圖像理想,做的不好會引出視頻的抖動問題。
視頻幀插值,可以用來解決幀率變化的情況下,出現(xiàn)的視頻抖動問題,主要是一個視頻的全局運動,類似于視頻抖動檢測,應該說技術上不復雜,但是視頻中的局部運動會干擾全局的運動估計,這樣插值出來的幀就會存在一定的瑕疵。
圖像視頻去噪,方法很多,簡單點通過濾波高頻信號的方法如高斯濾波,或者簡單的中值濾波都可以有一定的效果,但是目前看來,最理想的方法還是非局部均值(NLM)方法。其他的一些例如偏微分方程的方法也可以嘗試。
五、人臉系列技術
包括人臉檢測、跟蹤,人臉特征點定位,人臉識別,人臉的表情識別,人的年齡、性別識別,人臉的美化,人臉卡通效果,人臉的變形效果,人臉的3D重建等以及與此相關的眼睛檢測和紅眼修復等。
六、非真實感渲染(NPL)系列技術
包括水墨畫、水彩畫、油畫、漫畫效果等人工畫效果,風、雪、雨、煙、霧、火焰、海浪等一些自然環(huán)境的模擬效果。
人工畫效果的實現(xiàn)主要是基于Stroke的方式,難點在于圖像的解析,一個好的人工畫效果,需要正確的將圖像分解為不同的區(qū)域,并分析不同區(qū)域的結構特點來確定用筆方式、Stroke的精細度等參數(shù)。
對自然環(huán)境的模擬,主要是一些粒子的模擬,可以采用基于物理模型的方式研究粒子的受力及運動方式,流體力學的相關方法是這個領域的核心。
NPL技術,除了用于對圖像、視頻的特效上,另外像一些煙霧效果和水墨畫效果用于藝術字的特效也是不錯的選擇。
七、3D系列技術
3D技術在視頻中的應用點,可以看到的有3D穩(wěn)像、3D對象嵌入等等,這里的關鍵是獲取攝像機的3D軌跡與視頻中的特征點的3D深度信息,通過視頻序列分析攝像機的3D軌跡的技術叫“Structure from Motion”,大量的文章可以參考。有了攝像機的3D軌跡與視頻中的特征點的3D深度信息,2維的圖像信息就一定程度擴展到了3維。全景圖的拼接技術,本質上也利用了基于雙目視覺3維重構的一部分技術。得到了3D攝像頭軌跡,可以利用這個信息進行3D插幀,借此虛擬重構雙目視覺畫面,通過3D眼鏡,就可以看到比較理想的3D場景了。3D的應用,可以想象的空間比較大,多了一維信息,總可以做出一些新的東西。
八、人機交互技術
人機交互是指通過攝像頭捕捉人的手勢、身體的姿態(tài)、面部表情、眼睛的移動等信息,代替?zhèn)鹘y(tǒng)的鼠標鍵盤來指導計算機做出相應的處理。技術層面主要涉及目標的檢測、跟蹤以及姿態(tài)的識別。相比之前提到的多媒體的各種方向,人機交互應該是最有市場前景的方向,應用點也非常多。
九、結論:
除了上述的這些技術方向之外,在此基礎上或者與這些技術相關的一些其他的應用也可能不斷的出現(xiàn),多媒體領域可以說是人工智能的一個試驗田,很多即使不成熟的新技術都很可能首先在這個領域出現(xiàn)和發(fā)展。這個領域幾乎可以囊括圖像視頻處理、模式識別的所有底層技術,必然可以衍生出很多很雜的應用點。
點擊下頁還有更多>>>關于多媒體技術論文