關(guān)于檢索的學(xué)術(shù)論文
檢索是指從文獻(xiàn)資料、網(wǎng)絡(luò)信息等信息集合中查找到自己需要的信息或資料的過(guò)程。下面是由學(xué)習(xí)啦小編整理的關(guān)于檢索的學(xué)術(shù)論文,謝謝你的閱讀。
關(guān)于檢索的學(xué)術(shù)論文篇一
語(yǔ)義檢索研究綜述
摘要 隨著語(yǔ)義網(wǎng)技術(shù)的發(fā)展,語(yǔ)義檢索已成為研究熱點(diǎn),其旨在克服傳統(tǒng)網(wǎng)絡(luò)檢索技術(shù)的局限性,支持知識(shí)檢索。在對(duì)現(xiàn)有研究與應(yīng)用調(diào)研的基礎(chǔ)上,對(duì)當(dāng)前語(yǔ)義檢索研究進(jìn)行綜述,詳細(xì)分析兩類語(yǔ)義檢索研究:語(yǔ)義支持的檢索及語(yǔ)義網(wǎng)資源檢索,并進(jìn)一步分析后者三種不同的研究方向:語(yǔ)義網(wǎng)文檔檢索,實(shí)例檢索和關(guān)系檢索。
關(guān)鍵詞 語(yǔ)義檢索 語(yǔ)義網(wǎng) 本體 信息檢索
分類號(hào) TP391
1 網(wǎng)絡(luò)信息檢索的局限與語(yǔ)義檢索
目前網(wǎng)絡(luò)檢索的實(shí)現(xiàn)技術(shù)主要有兩種:一種是依賴于編碼處理,通過(guò)分類模式來(lái)描述信息資源,從而實(shí)現(xiàn)檢索;另一種是通過(guò)全文檢索,查找文本中含有用戶指定詞語(yǔ)的信息源。其應(yīng)用的體現(xiàn)分別為基于分類目錄的搜索引擎和全文搜索引擎。前者雖然基于人工處理,準(zhǔn)確性較高,但它更適合用于網(wǎng)絡(luò)信息資源的瀏覽和導(dǎo)航;后者實(shí)現(xiàn)較為方便,適應(yīng)了對(duì)迅速增長(zhǎng)的海量網(wǎng)絡(luò)信息資源進(jìn)行自動(dòng)處理的需要,成為網(wǎng)絡(luò)信息檢索的主要途徑。但是用戶在檢索中始終面臨不少困難,如:檢索結(jié)果的過(guò)載和低查準(zhǔn)率,用戶負(fù)擔(dān)重;檢索結(jié)果及其排序不一致,且與用戶使用的查詢?cè)~匯形式及其組合形式高度相關(guān)等。究其原因,統(tǒng)計(jì)意義上的詞型匹配難以支持對(duì)網(wǎng)絡(luò)信息資源的有效檢索利用。因此研究者們將目光投向了對(duì)詞形背后的意義的挖掘上,探索實(shí)現(xiàn)基于概念匹配的檢索技術(shù)和方法。
早在上世紀(jì)80年代對(duì)語(yǔ)義檢索的討論就出現(xiàn)在SIGIR會(huì)議論文中,但語(yǔ)義檢索研究始終受制于語(yǔ)義信息處理發(fā)展水平的局限。隨著自然語(yǔ)言處理、人工智能的發(fā)展,尤其是語(yǔ)義網(wǎng)技術(shù)的興起與發(fā)展,語(yǔ)義檢索研究自上世紀(jì)末以來(lái)得以迅速發(fā)展。盡管到目前為止對(duì)語(yǔ)義檢索在概念上仍沒(méi)有統(tǒng)一的界定,但不同的研究卻有著共同之處,就是基于對(duì)信息資源的語(yǔ)義處理實(shí)現(xiàn)效率更高的檢索。語(yǔ)義信息的提取和處理可以是基于語(yǔ)義網(wǎng)方法與技術(shù)的,也可以是基于自然語(yǔ)言處理技術(shù)的。目前,前者在語(yǔ)義檢索研究中相對(duì)更為普遍。事實(shí)上,正是由于語(yǔ)義網(wǎng)的出現(xiàn)與發(fā)展,才使語(yǔ)義檢索的研究更加得以明確并發(fā)展如此迅速。
2 基于本體的信息資源檢索
本體是語(yǔ)義網(wǎng)技術(shù)的核心部分,承擔(dān)著語(yǔ)義表達(dá)的關(guān)鍵任務(wù)。本體在傳統(tǒng)信息檢索中的應(yīng)用可促進(jìn)從詞型匹配到概念匹配的轉(zhuǎn)變。從處理環(huán)節(jié)來(lái)看,它體現(xiàn)在兩個(gè)方面:查詢處理與文檔標(biāo)注及索引。
2.1 基于本體的查詢處理
基于本體的查詢處理包括查詢消歧與查詢擴(kuò)展。通過(guò)消歧,明確查詢的確切所指,準(zhǔn)確反映用戶的信息意圖,繼而通過(guò)加入與其語(yǔ)義相關(guān)的其他概念來(lái)實(shí)施擴(kuò)展。許多研究中利用了語(yǔ)言本體(如WordNet),通過(guò)其所提供的詞的不同義項(xiàng)來(lái)實(shí)現(xiàn)查詢消歧,通過(guò)其所蘊(yùn)含的同義、整分、上下位等詞匯關(guān)系來(lái)實(shí)現(xiàn)查詢擴(kuò)展。支持兩種處理模式:查詢消歧和擴(kuò)展、檢索結(jié)果后分類控制。前者是系統(tǒng)在查詢消歧的基礎(chǔ)上將某義項(xiàng)的上位詞或下位詞加入以擴(kuò)展查詢;后者則是系統(tǒng)先以常規(guī)方式處理用戶查詢,再對(duì)檢索結(jié)果基于用戶指定的查詢義項(xiàng)進(jìn)行分析和加權(quán)。則在詞義消歧的基礎(chǔ)上,利用WordNet根據(jù)查詢?cè)~義抽取子概念圖來(lái)實(shí)現(xiàn)查詢擴(kuò)展。子概念圖作為查詢的上下文信息用于支持對(duì)由普通搜索引擎返回的初次結(jié)果的過(guò)濾,以選出相關(guān)文檔。提出的查詢消歧方法包括三步:首先用WordNet中的義項(xiàng)及同義詞簇,對(duì)查詢用詞進(jìn)行兩兩配對(duì),即在固定其中一詞的情況下,與另一詞的所有義項(xiàng)進(jìn)行組合,得到若干種不同的組合情況,反之亦然其次將這些組合作為提問(wèn)通過(guò)AltaVista進(jìn)行搜索,并根據(jù)命中數(shù)對(duì)它們進(jìn)行排序;最后,以WordNet中對(duì)相關(guān)義項(xiàng)的注釋為上下文,計(jì)算排序在前的配對(duì)詞間不同義項(xiàng)組合的語(yǔ)義密度,從而決定查詢用詞所指的確切概念。國(guó)內(nèi)基于WordNet漢化而建設(shè)的中文概念詞典(CCD)也在信息檢索研究中得到了應(yīng)用。
此外,各種自建的領(lǐng)域本體也被應(yīng)用于查詢處理。以一個(gè)有關(guān)人、地、事件、組織等的本體為基礎(chǔ)來(lái)實(shí)現(xiàn)查詢消歧,為每一個(gè)初始查詢結(jié)果提供一個(gè)特別鏈接,用戶通過(guò)點(diǎn)擊這些鏈接來(lái)向系統(tǒng)確認(rèn)該結(jié)果代表的概念符合其查詢意圖。構(gòu)建了一個(gè)三層本體模型,分別為概念層(即按等級(jí)層次組織起來(lái)的概念)、語(yǔ)言層(即與概念對(duì)應(yīng)的表達(dá)形式)、出現(xiàn)層(即對(duì)應(yīng)于表達(dá)形式的具體字串)。在其可視化本體瀏覽提問(wèn)接口中,用戶可在本體層級(jí)體系中點(diǎn)擊選擇合適的概念。系統(tǒng)會(huì)自動(dòng)執(zhí)行查詢擴(kuò)展,將用戶指定層級(jí)范圍內(nèi)的下位概念以及相關(guān)關(guān)聯(lián)概念增加進(jìn)來(lái)。擴(kuò)展后的查詢通過(guò)上述三層本體模型從抽象到具體被依次轉(zhuǎn)換,最終變?yōu)橛晌臋n中實(shí)際出現(xiàn)的具體詞匯構(gòu)成的查詢式。
2.2 語(yǔ)義標(biāo)注文檔的檢索
語(yǔ)義標(biāo)注文檔檢索的一種普遍思路是在對(duì)文檔進(jìn)行語(yǔ)義標(biāo)注與索引的基礎(chǔ)上,先進(jìn)行實(shí)例檢索,再據(jù)此返回所有以檢出實(shí)例標(biāo)注的文檔信息。此外,也有其他不同方案。引入了向量空間模型,采用了基于概念級(jí)的向量空間文檔表達(dá),還設(shè)計(jì)了文檔排序算法。在進(jìn)行標(biāo)注時(shí)以文檔為單位,將其作為一個(gè)概念類的實(shí)例來(lái)進(jìn)行處理。它設(shè)計(jì)了一種獨(dú)特的索引和檢索方法,以從文檔全文和其語(yǔ)義標(biāo)注數(shù)據(jù)中抽出的內(nèi)容描述符(詞)來(lái)代表文檔,并建立索引記錄。這樣的索引可支持基于關(guān)鍵詞或語(yǔ)義標(biāo)注信息的檢索。根據(jù)自建的歷史領(lǐng)域本體對(duì)文檔進(jìn)行實(shí)例標(biāo)注以構(gòu)成其語(yǔ)義上下文信息(含概念與時(shí)間信息),并認(rèn)為用戶瀏覽的當(dāng)前資源的上下文信息可代表其真實(shí)查詢意圖。檢索時(shí),用戶首先通過(guò)傳統(tǒng)的全文檢索獲得一個(gè)初始資源或自行提供一個(gè)初始資源。然后系統(tǒng)據(jù)此反饋該資源的上下文信息,并以嵌入文檔中的鏈接供用戶選擇。當(dāng)用戶點(diǎn)擊鏈接時(shí),系統(tǒng)即將當(dāng)前上下文信息作為新的查詢,對(duì)其進(jìn)行基于本體和規(guī)則的查詢擴(kuò)展,在對(duì)系統(tǒng)全部文檔先進(jìn)行過(guò)濾之后,再進(jìn)行最終的檢索匹配。
3 語(yǔ)義網(wǎng)資源檢索
語(yǔ)義網(wǎng)是一個(gè)基于某種知識(shí)表達(dá)語(yǔ)言(如RFD(S)、OWL等)的、機(jī)器可處理的語(yǔ)義網(wǎng)文檔集合。從邏輯上看,它不再僅是一個(gè)普通文檔的網(wǎng)絡(luò),而是一個(gè)資源(可以是各種媒介資源和現(xiàn)實(shí)世界中的其實(shí)對(duì)象,如人、地方、組織、事件等)及其語(yǔ)義關(guān)系的網(wǎng)絡(luò),表現(xiàn)為本體文檔,實(shí)例數(shù)據(jù)和各種語(yǔ)義關(guān)系。
3.1 本體文檔檢索
本體文檔檢索旨在找到含有特定類或?qū)傩缘谋倔w文檔。普通搜索引擎,如Google,可以通過(guò)指定文檔類型為RDF等方法來(lái)搜索本體文檔,但其根本問(wèn)題是不能識(shí)別本體文檔中的結(jié)構(gòu)化語(yǔ)義標(biāo)注信息,因而也無(wú)法將它們與普通文本信息區(qū)別對(duì)待。所以在檢索的過(guò)程中無(wú)法將真正符合需要的本體文檔與那些只是含有檢索詞的本體文檔區(qū)分開(kāi)來(lái)。這正是對(duì)本體文檔進(jìn)行檢索需要解決的問(wèn)題。
解決問(wèn)題的一種思路就是對(duì)本體文檔進(jìn)行適用于普通搜索引擎的改造處理。就是基于這種思路,通過(guò)對(duì)RDF文檔進(jìn)行一定處理使其可被普通搜索引擎索引和檢索,而同時(shí)又能在某種意義上發(fā)揮其語(yǔ)義信息的作用。它的關(guān)鍵技術(shù)Swangling能將語(yǔ)義信息編碼成普通文本,并將其作為新的陳
述加入到原RDF文檔中(對(duì)于以三元組表示的查詢,也以相同編碼方法處理,將其變?yōu)槠胀ㄎ谋?。這樣提問(wèn)與文檔的匹配就可以按傳統(tǒng)的方式進(jìn)行。
另一種思路則是探索新的本體搜索方法和技術(shù)。使用了本體注冊(cè)的方法。注冊(cè)服務(wù)器并不實(shí)際存儲(chǔ)任何本體文檔,只保存由本體服務(wù)器提供的元數(shù)據(jù)信息。同時(shí),系統(tǒng)通過(guò)將本體中的元素與WordNet中的詞進(jìn)行匹配來(lái)構(gòu)建本體摘要,并將其也放入元數(shù)據(jù)信息。這樣,用戶就可以從WordNet中選詞來(lái)對(duì)注冊(cè)服務(wù)器進(jìn)行檢索。采用基于Google Web Service構(gòu)建的Google crawler來(lái)進(jìn)行本體搜索。在此基礎(chǔ)上,基于向量空間模型,采用一種概念一權(quán)重向量匹配方法來(lái)進(jìn)行本體索引與匹配。也進(jìn)行基于Googlecrawler的本體搜索,不同的是,系統(tǒng)沒(méi)有獨(dú)立的索引和匹配過(guò)程,而是將Google搜索與本地倉(cāng)庫(kù)結(jié)合起來(lái),后者專門用于存儲(chǔ)已搜索到的本體文檔,并保存檢索歷史。對(duì)于已經(jīng)執(zhí)行過(guò)的同類查詢,系統(tǒng)直接從本地倉(cāng)庫(kù)中提供查詢結(jié)果,只有當(dāng)一定時(shí)間內(nèi)無(wú)相同查詢被執(zhí)行過(guò)時(shí),才啟動(dòng)新的一次Google搜索。還另開(kāi)發(fā)了針對(duì)某個(gè)特定網(wǎng)站的搜索器以及基于JENA2的搜索器。系統(tǒng)將從搜集到的語(yǔ)義網(wǎng)文檔中抽取的元數(shù)據(jù)與原結(jié)構(gòu)信息一起存入數(shù)據(jù)庫(kù)。它們支持對(duì)含有某一特定類或?qū)傩缘谋倔w的查詢。同時(shí)還通過(guò)定制的索引與檢索引擎Sire對(duì)語(yǔ)義文檔進(jìn)行基于傳統(tǒng)檢索技術(shù)的處理。提出了另一種匹配方法,它通過(guò)Google搜索獲取一批與用戶查詢域相關(guān)的文檔,然后從這些文檔中抽取一批詞,并用這個(gè)詞集合取代原始查詢與本體文檔進(jìn)行檢索匹配。在結(jié)果排序方面,主要有兩種方法:一種是跨本體鏈接分析方法(cross-ontology link-analysis);另一種則是圖分析方法(graph-analysis method)。從效果上看,前者是讓更流行的本體文檔排序在前,而后者則是讓更相關(guān)的本體文檔排序在前。
3.2 實(shí)例檢索
除了本體文檔外,語(yǔ)義網(wǎng)資源還有表征各類對(duì)象的實(shí)例數(shù)據(jù)。對(duì)于大多數(shù)一般用戶來(lái)說(shuō),對(duì)實(shí)例數(shù)據(jù)檢索的需求更為普遍。實(shí)例檢索的目的是在基于本體的知識(shí)庫(kù)中發(fā)現(xiàn)和搜集關(guān)于某一指定類的所有實(shí)例信息。盡管傳統(tǒng)檢索技術(shù)在其中也有不同應(yīng)用,但實(shí)例檢索主要是基于結(jié)構(gòu)化查詢與推理的?;赗DF(S)、OWL等底層知識(shí)模型的圖遍歷(graph-traversal)與圖模式(graph patterns)得到了廣泛的應(yīng)用。用語(yǔ)義網(wǎng)數(shù)據(jù)來(lái)補(bǔ)充傳統(tǒng)檢索結(jié)果的這一部分就屬于實(shí)例檢索。其“語(yǔ)義網(wǎng)”資源包括正式的語(yǔ)義網(wǎng)文檔和語(yǔ)義標(biāo)注信息。在執(zhí)行傳統(tǒng)檢索的同時(shí),系統(tǒng)會(huì)針對(duì)查詢概念在RDF知識(shí)庫(kù)中通過(guò)圖遍歷搜索所有相關(guān)的數(shù)據(jù)信息。相對(duì)復(fù)雜的是將一種認(rèn)知模型加入到搜索過(guò)程中,它支持用戶用自然語(yǔ)言輸入一段文字,從中抽出概念并將其作為關(guān)鍵詞概念的上下文信息以用于檢索過(guò)程。在傳統(tǒng)關(guān)鍵詞檢索的基礎(chǔ)上,結(jié)合了擴(kuò)展激活算法,通過(guò)圖遍歷進(jìn)一步擴(kuò)展搜索與初始結(jié)果相關(guān)的更多實(shí)例信息(即使其不含查詢中的關(guān)鍵詞甚至與初始結(jié)果不是直接相關(guān)聯(lián))。在此基礎(chǔ)上還提出了一個(gè)特別的實(shí)例相似性計(jì)算方法,并將其用于擴(kuò)展激活過(guò)程中。提出了一種面向RDF(S)倉(cāng)庫(kù)的可視的語(yǔ)義檢索途徑。系統(tǒng)為用戶提供可視的語(yǔ)義檢索與語(yǔ)義瀏覽服務(wù),其基礎(chǔ)是底層的本體及基于本體映射得到的概念分面。在多分面視圖中,用戶可對(duì)系統(tǒng)資源有一個(gè)概括的了解,并通過(guò)點(diǎn)擊各分面中的不同范疇概念來(lái)提交查詢。語(yǔ)義搜索引擎通過(guò)圖遍歷等方法來(lái)進(jìn)行查詢構(gòu)建與查詢擴(kuò)展。系統(tǒng)接受用戶的自然語(yǔ)言提問(wèn),并將其解析為一組元素(包括類、屬性、實(shí)例等),構(gòu)建基于這些元素的圖模式以作為復(fù)雜提問(wèn)。隱式查詢擴(kuò)展也是基于類層次關(guān)系與規(guī)則而實(shí)現(xiàn)的。為了更好地結(jié)合傳統(tǒng)信息檢索技術(shù)與結(jié)構(gòu)化查詢及推理,充分利用普通文本信息與語(yǔ)義標(biāo)注信息,一種增強(qiáng)的語(yǔ)義檢索模型,基于自由文本的關(guān)鍵詞搜索與基于語(yǔ)義信息的結(jié)構(gòu)化查詢與推理被緊密地融合在一起來(lái)實(shí)現(xiàn)檢索目標(biāo),這種檢索有利于解決集中了模糊關(guān)鍵詞概念與結(jié)構(gòu)化查詢要素的混合查詢問(wèn)題,如“請(qǐng)查找由研究語(yǔ)義網(wǎng)檢索的教授撰寫的論文”。
3.3 語(yǔ)義關(guān)系檢索
盡管在上述本體文檔檢索與實(shí)例檢索中運(yùn)用了各種語(yǔ)義關(guān)系,但畢竟沒(méi)有直接以這些語(yǔ)義關(guān)系為檢索處理對(duì)象。而概念、文檔等之間的語(yǔ)義關(guān)系也應(yīng)是語(yǔ)義網(wǎng)資源檢索的重要內(nèi)容之一。目前,一些研究已開(kāi)始關(guān)注針對(duì)語(yǔ)義關(guān)系的檢索問(wèn)題,進(jìn)行的有關(guān)語(yǔ)義關(guān)聯(lián)檢索(Semanticassociation search)的研究。它所關(guān)注的不僅是簡(jiǎn)單的屬性鏈關(guān)系,更是概念間的各種復(fù)雜關(guān)聯(lián)關(guān)系。研究的主要貢獻(xiàn)是分析了語(yǔ)義關(guān)系檢索所面臨的三大主要挑戰(zhàn)(即對(duì)關(guān)系的理解不夠通用和全面、缺少以關(guān)系而非概念為對(duì)象的查詢語(yǔ)言和系統(tǒng)、檢索結(jié)果排序問(wèn)題),并提出了相應(yīng)的解決方法(將關(guān)系分為語(yǔ)義關(guān)聯(lián)和語(yǔ)義相似性兩類并形式化、設(shè)計(jì)了p-query以支持關(guān)系查詢、基于用戶指定的上下文來(lái)進(jìn)行結(jié)果排序)。為檢驗(yàn)這些解決思路,在相關(guān)研究的基礎(chǔ)上,還在國(guó)家安全領(lǐng)域?qū)崿F(xiàn)了一個(gè)名為SemDIS的檢索系統(tǒng)。
4 結(jié)語(yǔ)
語(yǔ)義檢索較之于傳統(tǒng)網(wǎng)絡(luò)檢索的進(jìn)步主要在于能表達(dá)和處理信息的語(yǔ)義內(nèi)容以實(shí)現(xiàn)基于語(yǔ)義的匹配和推理。此外,傳統(tǒng)網(wǎng)絡(luò)檢索仍屬文獻(xiàn)檢索而非信息檢索、知識(shí)檢索,其結(jié)果僅提供相關(guān)文檔的鏈接。但通常用戶所需的信息是分散在多個(gè)文檔中的,需要對(duì)多次查詢所得的相關(guān)文檔進(jìn)行遍歷、信息抽取與組合以滿足需要。而語(yǔ)義檢索則能為實(shí)現(xiàn)從文獻(xiàn)檢索到信息與知識(shí)檢索的轉(zhuǎn)變提供支持。
在語(yǔ)義檢索的發(fā)展中本體處于非常重要的位置,它承擔(dān)著知識(shí)表達(dá)的核心任務(wù),對(duì)檢索中基于語(yǔ)義的文檔與提問(wèn)處理以及實(shí)現(xiàn)智能推理都起著支撐作用。因而在自然語(yǔ)言處理、人工智能還不能支持完全自動(dòng)化處理的情況下,本體構(gòu)建始終是語(yǔ)義檢索的主要問(wèn)題之一。在這方面,經(jīng)過(guò)長(zhǎng)期發(fā)展積累的受控語(yǔ)言因其包含著豐富的語(yǔ)義資源,有待在語(yǔ)義檢索中被挖掘利用。此外,語(yǔ)義檢索中面臨的問(wèn)題還有如語(yǔ)義標(biāo)注、充分利用語(yǔ)義標(biāo)注信息與全文信息、檢索結(jié)果排序以及提供友好用戶接口等方面。
點(diǎn)擊下頁(yè)還有更多>>>關(guān)于檢索的學(xué)術(shù)論文