網絡信息分類系統的詞匯控制
所謂詞匯控制,是指根據信息資源標引和檢索的需要,對自然語言中的詞匯進行選擇、規(guī)范并揭示其相關性的過程。自然語言作為一種人際交流和思維的工具,其詞匯具有使用靈活、表達性強等特點,但相對檢索要求來說,含義不夠精確,缺乏明確的結構,詞匯量也過大。因此,必須根據檢索系統要求,對詞匯進行選擇和處理。適度的詞匯控制對于建立一個高效的信息組織和檢索系統是十分必要的。
分類系統對詞匯的控制主要包括:同義控制、詞義控制和詞間關系控制三個方面[1],本文主要圍繞這三個方面進行討論研究。
1 傳統分類法詞匯控制
傳統分類法的構成原理中,詞匯控制是一個重要的方面。
1.1 同義控制
即對字面形式不同、涵義相同的詞進行控制,使一個概念只用一個語詞表達,目的是克服自然語言中的一義多詞現象。
分類法對詞匯的同義控制主要體現在類名的選擇上。類名即類目的名稱,規(guī)定著類目的含義和內容范圍。當遇到一義多詞情況時,傳統分類法的選詞原則一般是:采用能準確反映其含義且比較通行的科學名詞,而不選擇其俗稱、舊稱、不能準確表達全稱原義的簡稱、不通行的譯名或近義詞等[2]。如有必要,也可將這些落選的同義詞、近義詞用括號加注于類名后,或設置交替類目、用代參照。
1.2 詞義控制
即對同形異義詞和語義含糊的詞進行控制,使得詞義明確,一個詞語只表示一個概念,克服自然語言中的一詞多義現象。
傳統分類法主要通過類目注釋來對詞義進行控制。類目注釋有多種類型,包括內容注釋、關系注釋、編列方法注釋、分類方法注釋、沿革注釋等。一般在類目內容注釋中作詞義控制,對類目的涵義加以說明,或對類目的內容范圍加以區(qū)分,指示某類包含與不包含的內容。如中圖法第四版類目“TB47工業(yè)設計”的注釋:“工業(yè)設計是工程技術與美學藝術相結合的新學科”。
1.3 詞間關系控制
指揭示詞匯之間的各種聯系使其成為一個語義相關的系統,目的是用以滿足擴檢、縮檢、改變檢索方向等的需要。詞匯之間的聯系,主要包括等同、等級、相關三種基本類型。
由于傳統分類法以分類標記作為概念標識,將系統展開的類目體系作為主要檢索途徑,因此,詞間關系控制成為其詞匯控制的中心。分類系統主要采用系統方式展開,通過層層劃分,構成其具有隸屬、并列關系的秩序井然的概念等級體系。將主題之間從屬、并列、相關等聯系加以系統展示,同時將類目之間的參照作為揭示類目之間橫向聯系的一種補充手段。類目參照一般用于內容聯系具有揭示價值、但在分類體系中被分散了的類目之間,通常采用互逆的方式在相關門類下注明。
2 網絡分類系統詞匯控制現狀
以下從同義控制、詞義控制及詞間關系控制三個方面來對網絡分類系統詞匯控制的現狀與傳統分類法進行對比分析。
2.1 同義控制
在類目名稱上,傳統分類法的類名力求科學、準確、規(guī)范,而網絡分類法在類名選擇上更注意面向各類網絡用戶,力求通俗易懂、時新,類名也更為簡練。因此,導致類名不規(guī)范的現象在各網絡分類系統尤其是在其三級及以下類目中普遍存在,成為詞匯控制中一個突出的問題[3]。如雅虎中國的一個三級類目名“親子”,搜狐的一個三級類目名“拓展”。
至于落選的同義詞,一般不建立用代參照或設置交替類目,但可作為入口詞。如在提供類目索引的雅虎中國中,在檢索框中輸入“腳踏車”,檢索結果會將你指引向“自行車”[4]。
2.2 詞義控制
網絡分類系統中,也普遍存在類名用語模糊導致難以判斷其外延的現象。傳統分類法中的詞義控制手段如含義注釋和范圍注釋也很少采用,一般只在一級大類下有選擇地列舉重點或熱點下位類來幫助明確其類名含義。如Yahoo!中,在一級大類“Business & Economy”下列出部分一級類“B2B,Finance,Shopping,Jobs”[5];在Open Directory中,一級大類“Business”下列出部分二級類“Jobs,Real Estate,Investinn”[6]。
2.3 詞間關系控制
與傳統分類法一樣,等級式類目體系也是網絡分類法進行詞間關系控制的主要手段。傳統分類法基本上是采用線性形式揭示類目之間聯系的,這是文獻組織的需要和傳統檢索環(huán)境的特點所決定的。計算機的使用,特別是超文本技術的使用改變了這一狀況。超文本技術的特點是,可以通過節(jié)點之間的鏈接,以非線性的方式充分揭示和表達信息之間的聯系。這一特點極大地改進了網絡分類法中類目之間各種關系的揭示,尤其是多維關系的揭示。這是超文本技術的強項,也是傳統分類法中的一個薄弱環(huán)節(jié)。目前,網絡分類體系中對多維關系的揭示比較充分,一般均通過鏈接的方式,在相應類下重復反映。但如在處理過程中缺乏一致性及對應用范圍的適度控制,也會造成類目關系的混亂。此外,單一的重復反映并不能簡單代替相關關系的揭示[7]。
在從屬、并列關系的揭示上,網絡分類系統目前也存在一些問題,如類目歸屬存在著不合理現象,同位類排列不能揭示類間關系等。
3 網絡分類系統詞匯控制改進策略
網絡分類目錄是因特網上用戶常用的兩種信息檢索工具之一,對網上海量的混雜無序的信息起著重要的導航作用。網絡分類系統詞匯控制的根本目的是提高檢索效率,因此,筆者認為網絡分類系統的所有詞匯控制改進策略都應以提高檢索效率為前提。
3.1 繼續(xù)保持自然語言的主體檢索語言地位
目前,在大多數信息存儲與檢索系統中,自然語言和人工受控語言處于并存狀態(tài),相互取長補短。隨著Internet的普及發(fā)展,信息檢索最終用戶日趨壯大,自然語言檢索呈現迅速發(fā)展趨勢。如前所述,網絡分類檢索系統中詞匯控制具有與傳統分類系統不同的特點,自然語言在系統中完全占據了主體地位。從根本上看,這是由自然語言檢索的特點和網絡用戶的檢索需求特點所決定的。
傳統分類法的編制主要針對印刷型文獻的特點用以編制分類目錄和組織分類排架,而網絡信息分類體系旨在為網上信息提供指引,建立與目標信息的快速有效的鏈接。網絡信息分類體系面向的是廣大網絡用戶而不是圖書情報專業(yè)人員。與原來的專業(yè)檢索人員相比,網絡用戶的范圍十分廣泛,他們的教育程度、知識結構、專業(yè)技術、興趣愛好各不相同,對同一事物、同一概念的理解也不盡相同。因此,為了增加網絡分類體系對一般用戶的易用性,現有的網絡分類體系都盡量采用自然語言,而避免學術性、專業(yè)性過強的詞匯,從而向大眾提供易于掌握、使用的分類查詢系統。
自然語言由于其與生俱來的詞義模糊、詞間關系不清等特性造成不少的漏檢和誤檢,與人工語言相比,檢索效率較低。但從用戶角度來說,自然語言具有獨特的優(yōu)越性,如自然語言時新性強,一旦網頁中出現某個新概念詞語,即可直接使用這一新詞作為檢索入口,而不必要轉換成另一規(guī)范詞用于檢索。而且自然語言檢索方便,它解除了受控語言的種種限制,不需要復雜的檢索規(guī)則,使用者能夠較快適應、易用性突出。
當然,要想獲得滿意的檢索效果,對自然語言的適度控制是不可缺少的,這包括建立機內關鍵詞詞典、類主題詞典和后控制詞表等。有理由相信隨著相關技術的日益提高,自然語言的優(yōu)越性將越來越顯著,網絡分類檢索系統也將日臻完善,獲得人們的普遍歡迎。
綜上所述,為了促進網絡分類系統的廣泛使用,自然語言在其中作為主體檢索語言的地位需要繼續(xù)保持下去。
3.2 適度借鑒傳統分類法和主題法的詞匯控制手段
傳統分類法主要通過其層層展開的嚴密的類目體系來進行詞匯控制。其系統的類目體系使得系統地掌握和利用一個學科或專業(yè)范圍的知識和信息很方便,對于從學科或專業(yè)出發(fā)的泛指性檢索能達到較高的檢全率,而且能方便地進行擴檢和縮檢。傳統主題法系統,一般以詞匯為單元進行控制,主要通過參照系統和各種輔助索引來展示詞間關系,在主題詞的選擇、詞義控制方面比分類法更為嚴格。主題法的特點是以主題為中心集中信息資源,能準確、專指地標引和揭示各種主題內容,檢索的直接性、通用性好,適合于進行專指性檢索,而且可通過靈活組配方式進行多途徑檢索,達到較好的使用效果。
現有網絡分類法由于應用超文本技術揭示詞間關系,采用多重列類的方法,從不同的屬性、角度設置類目,從而提供從多個方面揭示信息資源的方法,增加了檢索入口,方便用戶從不同角度查找。這是其在檢索上相對于傳統分類法和主題法檢索系統最大的優(yōu)勢。但從目前檢索實踐來說,其檢索效率遠不及后者,究其原因,詞匯控制是其中一個很重要的因素。因此,要改善網絡分類系統的檢索效率,借鑒傳統分類法和主題法成熟的詞匯控制手段是一個可行的辦法[8]。
首先,在類目體系設計上,網絡分類體系普遍存在著類目設置缺乏規(guī)律性、類目歸屬不合理、同位類排列混亂、橫向關系揭示不一致等問題,而這些問題在傳統分類法中都相應地有很成熟的技術或約定俗成的做法可借鑒。
其次,在類名選擇上可借鑒傳統主題法詞匯選擇的原則和方法或直接選用其主題詞。類目名稱不規(guī)范是目前各種網絡分類系統的一大通病。作為面向最終用戶的檢索系統來說,采用廣大網民所喜聞樂見的稱謂是無可厚非的,但對于類目命名還是要進行適當的規(guī)范化處理?,F有的網絡分類系統大多屬于等級式主題分類法系統,以主題充當類目。因此,借鑒傳統主題法詞匯選擇的原則和方法或直接選用其主題詞不失為改善詞匯控制的一個捷徑。
另外,在詞義控制上,可采取傳統分類法和主題法所常用的手段,包括加限義詞、增設含義注釋和范圍注釋等,以進一步明確類目的內涵和外延。這有助于用戶在查詢系統時快速、準確選擇類目,增強系統的用戶友好性,從而達到改善檢索效果的目的。
3.3 建立一致的詞匯控制機制
許多國內外知名的綜合性門戶網站如Yahoo、Excite、Infoseek、搜狐、網易等都研制有自己的網絡分類檢索工具,提供分類瀏覽式查詢。這些各具特色的網絡分類體系給網上信息檢索帶來了極大的便利。這些分類體系的大類設置與劃分、類名的表述與外延、類目的排列等各不相同,檢索性能也有較大的差異。而用戶在查詢網絡信息時通常會使用多種分類檢索工具,這就造成了用戶理解和使用的困難,更不利于網上信息資源的共建和共享。
傳統分類法也曾是多種多樣的,但目前在國際上占主導地位的只有DDC、UDC和LCC,在我國則是《中圖法》和《科圖法》。綜合性的分類法趨向統一是信息資源共享趨勢的結果?;ヂ摼W上信息資源的最大特點之一就是它的共享性。知識組織體系的相對統一將為基于網絡的資源共享提供便利。因此,編制適應網上信息組織和檢索的統一分類體系已成為迫切需要解決的問題。建立一致的詞匯控制機制是統一分類體系的非常重要的一環(huán),對于推動網絡分類法的進一步發(fā)展具有重要的意義。
建立一致的網絡信息分類體系詞匯控制機制,應該由圖書情報專業(yè)人員參與,以現有的傳統分類體系主題法詞匯控制機制為基礎,吸收已有的網絡分類體系的詞匯控制經驗和成果,遵循面向網絡信息資源、面向網絡技術環(huán)境、面向網絡用戶的原則。其詞匯控制機制主要包括同義控制、詞義控制、詞間關系控制方面的原理、原則、方法和技術等,此外,還包括詞量控制、詞組選擇和使用的控制、專指度的控制等方面的內容。
最后,在詞匯控制機制一致的基礎上,構建相對統一的網絡信息分類法。所謂相對統一,是指在統一網絡分類體系基本原理包括詞匯控制機制的基礎上,保留并改進現有的多樣的網絡分類體系,允許多種有特色有實力的分類體系共存發(fā)展。因為不同的網絡分類體系在類目體系和資源選擇上往往都有自己的特點,在滿足不同用戶需求或檢索特定資源時有其獨到之處[7]。此外,多樣性必然導致網絡分類體系之間的競爭,為了爭取用戶,開發(fā)者不得不針對用戶的需求實時地改進,這就使得整個網絡分類體系的性能得到自然的提升,從而推動網絡分類法逐步走向成熟和完善[9]。
【參考文獻】
1 馬張華.信息組織(第二版)[M].北京:清華大學出版社,2003.14-15.
2 張琪玉.情報語言學基礎(第二版)[M].武漢:武漢大學出版社,1997.44-47.
3 黃如花.網絡信息組織:模式與評價[M].北京:北京圖書館出版社,2003.89-91.
4 http://cn.yahoo.com,2004-10-11.
5 http://www.yaboo.com,2004-10-11.
6 http://dmoz.org/,2004-10-11.
7 劉穎.試論網絡信息分類的現狀與未來——構建統一的網絡信息分類法[J].晉圖學刊,2003,(1):21-23.
8 周寧,黃曉梅,等.信息組織[M].武漢:武漢大學出版社,2001.74-77.
9 杜安平.網絡分類體系基本原理研究[J].圖書館學研究,2004,(4):60-62.