關(guān)于檢索的學術(shù)論文(2)
關(guān)于檢索的學術(shù)論文篇二
視頻檢索綜述
【摘要】視頻檢索把圖像檢索、模式識別、圖像數(shù)據(jù)庫技術(shù)等技術(shù)成果結(jié)合了起來,有著廣闊的 發(fā)展 前景,并將在許多領(lǐng)域中道得到 應用。本文概述了視頻檢索的發(fā)展 歷史 和研究狀況,給出當前視頻檢索領(lǐng)域主要的研究方法和策略, 介紹了基于DCT壓縮域圖像檢索新方案。進一步結(jié)合視頻檢索自身的特點和難點,提出了今后視頻檢索研究的重點和方向。
【關(guān)鍵詞】視頻檢索;圖像特征;DCT壓縮域圖像
視頻檢索就是要從大量的視頻數(shù)據(jù)中找到所需的視頻片斷。根據(jù)給出例子或是特征描述,系統(tǒng)就能夠自動的找到所需的視頻片斷點,即實現(xiàn)基于內(nèi)容的視頻檢索。
根據(jù)提交視頻內(nèi)容的不同,視頻檢索一般分為鏡頭檢索和片段檢索。一般來說,片段的概念等價于場景的概念,也是由一連串語義相關(guān)的連續(xù)鏡頭構(gòu)成,不同的是,片段可以是一段完整場景的部分或者全部。目前視頻檢索的多數(shù)研究還集中在鏡頭檢索上。而片段檢索方面的研究則剛剛開始。實際上,從用戶的角度分析,他們對視頻數(shù)據(jù)庫的查詢通常會是一個視頻片段而很少會是單個的物理鏡頭。從信息量的角度分析,由幾個鏡頭組成的視頻片段有比單個鏡頭更多的語義,它可以表示用戶感興趣的事件,因此,查詢的結(jié)果也比較有意義。例如在新聞中檢索感興趣的事件、電影中檢索喜歡的情節(jié)、 體育 節(jié)目中檢索喜愛的體育運動、電視臺檢索某條廣告是否播出等。
由于視頻拍攝的多樣性和后期編輯的復雜性,片段的相似性有多種可能。把片段檢索分為這樣兩種類型:(1)精確檢索:要檢索的片段與例子片段完全一樣,具有同樣的鏡頭和幀序列;(2)相似性檢索:有這樣兩種情況:一種是對原視頻進行了各種編輯,如插入刪除幀(慢鏡頭快鏡頭)、插入刪除鏡頭、交換幀鏡頭順序等;另一種是不同拍攝的同類節(jié)目,如不同的足球比賽等。實際的視頻節(jié)目一般都是這兩種類型的綜合,其中,相似性檢索更為普遍。因此,一個好的片段檢索算法,應該能夠在合理的時間內(nèi)同時進行這兩種類型片段的檢索。
1 視頻檢索的關(guān)鍵技術(shù)
一個完整的視頻檢索系統(tǒng)的關(guān)鍵技術(shù)主要有:關(guān)鍵幀提取、圖像特征提取、圖像特征的相似性度量、查詢方式、以及視頻片段匹配等方法。
1.1 關(guān)鍵幀提取:關(guān)鍵幀是用于描述一個鏡頭的關(guān)鍵圖像幀, 它反映一個鏡頭的主要內(nèi)容。關(guān)鍵幀的選取一方面必須能夠反映鏡頭中的主要事件, 因而描述應盡可能地準確完全, 另一方面要便于檢索。關(guān)鍵幀的選取方法很多, 比較經(jīng)典的有幀平均法和直方圖平均法。
1.2 圖像特征提取:特征提取可以針對圖像內(nèi)容的底層物理特征進行提取,如顏色直方圖、圖像輪廓特征等。特征的表示方式有三種:數(shù)值信息、關(guān)系信息和文字信息。目前,多數(shù)系統(tǒng)采用的都是數(shù)值信息。
1.3 相似性度量:在鏡頭檢索上,早期的 工作主要是從鏡頭中提取關(guān)鍵幀,把鏡頭檢索轉(zhuǎn)化為圖像檢索。例如通常情況下,圖像的特征向量可看作是多維空間中的一點,因此很 自然 的想法就是用特征空間中點與點之間的距離來代他們的匹配程度,距離度量是一個比較常用的方法,此外還有相關(guān) 計算 、關(guān) 聯(lián)系數(shù)計算等。此外,目前研究的問題還在于怎樣對視頻中的時間信息充分進行利用。
在片段檢索上,研究方法可以分為兩類:(1)把視頻片段分為片段、幀兩層考慮,片段的相似性利用組成它的幀的相似性來直接度量;(2)把視頻片段分為片段、鏡頭、幀3層考慮, 片段的相似性通過組成它的鏡頭的相似性來度量,而鏡頭的相似性通過它的一個關(guān)鍵幀或所有幀的相似性來度量。方法(1)的缺點在于限制相似的片段必須遵守同樣的時間順序,同時這種基于每幀的比較,也使得檢索速度比較慢。方法(2)的思想比較合理,但這種方法在已有的研究中并沒有很好解決片段檢索的問題。
1.4 查詢方式:由于圖像特征本身的復雜性,對查詢條件的表達也具有多樣性,使用的特征不同,對查詢的表達方式也不一樣。目前查詢方式基本上可歸納為以下幾種:底層物理特征查詢、自定義特征查詢、局部圖像查詢和語義特征查詢。
1.5 視頻片斷的匹配:由于同一鏡頭連續(xù)圖像幀的相似性,使得經(jīng)常出現(xiàn)同一樣本圖像的多個相似幀的出現(xiàn),因而需要在查詢到的一系列視頻圖像中,找出最佳的匹配圖像序列。已經(jīng)有研究提出了最優(yōu)匹配法、最大匹配法和動態(tài)規(guī)劃算法等。
2 檢索性能的評價
對于視頻檢索系統(tǒng)的評價并沒有一個統(tǒng)一的標準,我們可以通過計算一些參數(shù)來衡量。如對于視頻片斷我們可以通過全查率和查準率來評價;對于使用某一個基準查出的K幅圖像,又可以用正確檢測數(shù)、錯誤檢測數(shù)、漏檢數(shù)和正確淘汰數(shù)來表示。對于檢索平臺還有一個重要的參數(shù)檢索效率來評價檢索的響應時間。
3 基于DCT壓縮域圖像檢索新方案
現(xiàn)在我們用到的視頻檢索方案是基于非壓縮域的,必須將壓縮的視頻數(shù)據(jù)解壓后再進行比對,這樣消耗了大量的實際,因而提出一種基于DCT壓縮域圖像檢索方案,作為以后的進一步研究和改進方向。
基于壓縮域的圖像檢索技術(shù),實際上是把圖像的壓縮技術(shù)與檢索技術(shù)融合在一起,能夠在不解碼(或不完全解碼)的情況下抽取到圖像可用于比對的信息特征。對于這種信息特征的提取,可以利用DCT域的一些特征,主要包括顏色特征、輪廓特征和輪廓直方圖等。
我們目前采用的視頻圖像壓縮格式是H.264/AVC,它目前采用與MPEG-2主類相同的4:2:0采樣結(jié)構(gòu)。并且視頻圖像幀或場都可以劃分為固定大小的宏塊,宏塊是解碼的基本模塊單元,通常是一個16×16亮度像素和兩個8×8彩色分量像素的長方型區(qū)域。所有宏塊的亮度和色度采樣在空間或時間上進行預測,對預測殘余進行變換編碼,為了實現(xiàn)變換編碼,每個顏色分量的預測殘余要再劃分為更小的4×4塊,每塊進行DCT整數(shù)變換,變換系數(shù)被量化,最后是熵編碼。所以經(jīng)過熵解碼后就可以得到DCT系數(shù)。
把圖像中所有16×16幀內(nèi)模式的宏塊中的DCT直流系數(shù)按照塊的空間位置關(guān)系重新 組織在一起,就構(gòu)成了DC 圖。DC圖是一幅圖像的低頻近似,雖然丟掉了圖像的中高頻信息,但仍然反映了圖像的主要內(nèi)容,可以看作是整幅圖像的縮圖,因此可以根據(jù)DC 圖直接進行圖像檢索。
4 國內(nèi)外視頻檢索的發(fā)展現(xiàn)狀
目前,國內(nèi)外已研發(fā)出了多個基于內(nèi)容的視頻檢索系統(tǒng),主要有:
(1)QBIC系統(tǒng):QBIC (Query By Image Content)是由IBM Almaden研究中心開發(fā)的,是“基于內(nèi)容”檢索系統(tǒng)的典型代表。QBIC系統(tǒng)允許使用例子圖像、用戶構(gòu)建的草圖和圖畫及其選擇的顏色和紋理模式、以及鏡頭和目標運動等圖形信息,對大型圖像和視頻數(shù)據(jù)庫進行查詢。視頻方面主要利用了顏色、紋理、形狀、攝像機和對象運動來描述內(nèi)容。
(2)VisualSeek系統(tǒng):VisualSeek是美國哥倫比亞大學 電子 工程系與電信研究中心圖像和高級電視實驗室共同研究的、一種在互聯(lián)網(wǎng)上使用的“基于內(nèi)容”的檢索系統(tǒng)。它實現(xiàn)了互聯(lián)網(wǎng)上的“基于內(nèi)容”的圖像/視頻檢索系統(tǒng),提供了一套供人們在Web上搜索和檢索圖像及視頻的工具。
(3)VideoQ系統(tǒng):VideoQ是哥倫比亞大學研究的一個項目,它擴充了傳統(tǒng)的關(guān)鍵字和主題導航的查詢方法,允許用戶使用視覺特征和時空關(guān)系來檢索視頻。它有以下幾個特征:集成文本和視覺搜索方法;自動的視頻對象分割和追蹤;豐富的視覺特征庫,包括顏色、紋理、形狀和運動;通過WWW互聯(lián)網(wǎng)交互查詢和瀏覽。
(4)TV-FI系統(tǒng):TV-FI (Tsinghua Video Find It),是清華大學開發(fā)的視頻節(jié)目管理系統(tǒng)。這個系統(tǒng)可以提供如下幾個功能:視頻數(shù)據(jù)入庫、基于內(nèi)容的瀏覽、檢索等。TV-FI提供多種模式訪問視頻數(shù)據(jù),包括基于關(guān)鍵字的查詢、基于示例的查詢、按視頻結(jié)構(gòu)進行瀏覽、以及按用戶自己預先定義的類別進行瀏覽。
5 目前系統(tǒng)的主要問題以及研究趨勢
目前我們應用的系統(tǒng)中還存在一些問題,比如一些樣本圖像不容易被檢索到,這主要是由于有 現(xiàn)代 電視在傳播過程中的非線性損失或是強度較大的干擾信號引起的。我們很難對有線電視的損失信號進行一個完美的補償,這使得顏色直方圖等一些對噪聲很敏感的方法很難在我們的系統(tǒng)中得以應用。由于有線電視信號的這種特點,使得查全率和查準率這對矛盾更加突出。經(jīng)過大量的測試我們發(fā)現(xiàn),視頻圖像本身對于噪聲的魯棒性有所不同,這就要求我們進一步分析圖像特點,盡量使用易檢索圖像作為檢索樣本,來權(quán)衡查全率和查準率這對矛盾。
此外,現(xiàn)在對于視頻檢索系統(tǒng)的還有以下一些研究熱點:
(1)非壓縮域的圖像檢索:為了提高效率,只對壓縮視頻信息不解壓或只進行部分解壓,或取圖像的特征信息進行檢索。
(2)基于語義的圖像檢索:為了使圖像檢索系統(tǒng)更加接近人對圖像的理解,研究者們還提出了基于語義的圖像檢索,試圖從語義層次解決圖像檢索問題。例如,太陽、汽車等一些代表性詞語,它包括了人們對圖像的理解,這種技術(shù)的難點在于如何獲取圖像的語義信息。
(3)視頻的動態(tài)特征提取:視頻處理是視頻檢索的基礎(chǔ),而視頻數(shù)據(jù)是動態(tài)的,具有動態(tài)特征。充分利用視頻圖像的動態(tài)特性,可以進一步提高視頻片斷檢索的準確度。
(4)多維索引方法:根據(jù)視頻圖像的空間性,研究基于時空的多維索引方法將更有助于視頻檢索的速度和精確度的提高。
6 結(jié)束語
綜上所述,視頻檢索把圖像檢索、模式識別、圖像數(shù)據(jù)庫技術(shù)等技術(shù)成果結(jié)合了起來,有著廣闊的 發(fā)展 前景,并將在許多領(lǐng)域中道得到應用,比如 網(wǎng)絡(luò) 多媒體搜索引擎、交互電視、數(shù)字圖書館、遠程 教育 ,遠程醫(yī)療,遠程購物、多媒體編輯(個人 電子 新聞業(yè)務、媒體寫作)等。
參考 文獻
[1] 金紅,周源華.基于內(nèi)容檢索的視頻處理技術(shù). 中國 圖像圖形學報,2000,5(4):276~283
[2] 王紹棣,張莉等.基于內(nèi)容特征的圖像和視頻檢索系統(tǒng). 計算 機工程與應用,2001,7:113~117
[3] 彭宇新.Ngo Chong-Wah.基于內(nèi)容的視頻檢索關(guān)鍵技術(shù).計算機工程,2004,1(30):14~16
[4] 張繼東,陳都.基于內(nèi)容的視頻檢索技術(shù).數(shù)字電視與數(shù)字視頻,2002,8 17~19
[5] 朱緒娟.一種基于內(nèi)容的壓縮域圖像檢索系統(tǒng)的開發(fā).北京 工業(yè) 大學碩士 論文 .
看了“關(guān)于檢索的學術(shù)論文”的人還看: