淺析檔案信息數(shù)據(jù)庫的建設
一 檔案信息化的相關概念
檔案信息數(shù)據(jù)庫的概念
檔案信息數(shù)據(jù)庫是在計算機存儲設備上合理存放的、可以共享的、具有共同存取方式和一定組織方式的、相互關聯(lián)的檔案信息數(shù)據(jù)的集合。“相互關聯(lián)” 、“共同存取方式和一定組織方式”、“共享”是檔案信息數(shù)據(jù)庫本質(zhì)的三個要素。數(shù)據(jù)庫中儲存的是一系列相互關聯(lián)的檔案信息數(shù)據(jù),而不是雜亂無章的數(shù)據(jù)。這些數(shù)據(jù)包括檔案題名、責任者、分類號、主題詞、內(nèi)容摘要等,還包括全文、圖像、聲音、影像等。這些相互關聯(lián)的數(shù)據(jù)是經(jīng)過調(diào)查、試驗、統(tǒng)計、整理和歸納后得到的,并經(jīng)合理分類和規(guī)范化處理之后,以記錄的形式存儲。
二 當前檔案信息數(shù)據(jù)庫建設的關鍵問題
(一)明確數(shù)據(jù)庫建設目的
對于檔案信息數(shù)據(jù)庫建設,主要用于檔案目錄、全文、多媒體等實體信息,明確建設檔案信息數(shù)據(jù)庫是為了檢索、建立檔案信息管理系統(tǒng)的需要。
(二)實現(xiàn)檔案目錄數(shù)據(jù)庫建設
檔案目錄數(shù)據(jù)庫的建設是數(shù)據(jù)庫建設的第一個目標。信息化建設的切入點和工作重心,首先是抓好目錄數(shù)據(jù)庫的建設。目錄數(shù)據(jù)庫可以比較全面地反映檔案信息,有助于實現(xiàn)全方位的、動態(tài)的、完整的檔案信息服務。
在檔案目錄數(shù)據(jù)庫建立的基礎上,可以考慮建立檔案目錄中心,實現(xiàn)一定范圍內(nèi)檔案內(nèi)容互補和檔案信息資源整合,更大限度地發(fā)揮檔案效益。
三 檔案信息數(shù)據(jù)庫建設步驟
(一)檔案信息的收集
檔案信息的主要來源是傳統(tǒng)檔案的數(shù)字化和電子文件。除此之外,檔案機構(gòu)和管理部門也是數(shù)值數(shù)據(jù)和事實數(shù)據(jù)的重要來源。在建立相應的數(shù)據(jù)庫時,必須確定檔案信息的收集范圍和來源,按要求進行全面地收集。
檔案信息主要來源于兩個方面:一是對各種以傳統(tǒng)載體形式存在的檔案信息進行數(shù)字化處理后形成的數(shù)字副本,二是直接通過計算機生成和處理的、并由檔案機構(gòu)進行收信歸檔的電子文件。
(二)檔案信息前期處理
這是一項基礎工作,為數(shù)據(jù)庫提供經(jīng)過加工處理的數(shù)據(jù)。主要是將檔案的內(nèi)容特征和形式特征著錄、標引出來。著錄標引必須達到規(guī)范化、標準化的要求。這是建立數(shù)據(jù)庫的必要過程,也是保證檢索質(zhì)量的前提條件。
1、檔案信息數(shù)字化
數(shù)字化是指把一切信息都變成只用O和1這兩個數(shù)字組成的、用不連續(xù)的數(shù)位表示的二進制代碼。檔案信息數(shù)字化是指為了使紙質(zhì)檔案、音像檔案等以傳統(tǒng)載體形式承載的檔案信息能夠通過計算機進行管理的提供利用,而利用高速掃描技術、數(shù)據(jù)壓縮技術等信息處理手段,將其進行轉(zhuǎn)換處理,形成數(shù)字信息,并以數(shù)字代碼方式存儲起來。這些數(shù)字信息可以通過計算機進行操作處理,通過網(wǎng)絡進行傳輸。紙質(zhì)檔案、音像檔案等各種載體的檔案都可以以文本文件格式、圖像文件格式,音頻文件格式或視頻文件格式轉(zhuǎn)換成數(shù)字信息。
2、電子文件的收集歸檔
隨著計算機技術與辦公自動化技術的結(jié)合,誕生了一個新生兒一電子文件。電子文件一經(jīng)產(chǎn)生其信息就是以數(shù)字代碼形式表達。所以在功能上電子文件等同于經(jīng)過數(shù)字化處理的文件。由此,直接在計算機中生成和處理的電子文件是重要的檔案信息來源。
(三)數(shù)據(jù)錄入
將檔案信息前處理的結(jié)果轉(zhuǎn)化成機讀數(shù)據(jù)。錄入過程需要較嚴格的校對審核。如審查字段的數(shù)據(jù)形式是否正確;字段長度與確定的結(jié)構(gòu)長度是否符合;各種標識符號是否有誤等。這其中可能包括對不同格式的數(shù)據(jù)進行轉(zhuǎn)換。
(四)數(shù)據(jù)庫的完善
由于計算機硬件能力奇跡般地不斷更新,計算機技術爆炸般地迅猛發(fā)展,數(shù)據(jù)庫系統(tǒng)發(fā)生著劇烈的變化。雖然它的基本組成部分仍然是數(shù)據(jù)、軟件和硬件,但是它們的范圍、規(guī)模和復雜性都大大地擴展了。數(shù)據(jù)庫是信息資源存儲和開發(fā)利用的基礎,是信息資源共享的先決條件,是信息系統(tǒng)的核心。因此把數(shù)據(jù)庫建設作為當前檔案信息發(fā)布的核心工作,檔案數(shù)據(jù)庫建設越有成效,檔案信息管理與服務也就越有保證。
四 檔案信息數(shù)據(jù)庫建設對檔案管理工作的影響
檔案信息數(shù)據(jù)庫建設,意味著在信息社會中檔案管理工作開始涉及各類相關的技術問題,檔案工作開始大規(guī)模引進現(xiàn)代技術。從長遠看,檔案信息數(shù)據(jù)庫建設的發(fā)展就是檔案信息化建設的推進,其間涉及數(shù)字檔案信息的形成、收集、歸檔、整理、鑒定,存儲、保管、保護,檢索、傳遞、利用、統(tǒng)計、銷毀等全過程。檔案信息數(shù)據(jù)庫建設將對相應的檔案管理工作產(chǎn)生各種影響,使之在一定程度上發(fā)生某些變化。
(一)內(nèi)部調(diào)整:相關檔案業(yè)務環(huán)節(jié)的調(diào)整
1、簡化整理工作
整理工作是采用一系列方法使檔案有序化,解決檔案的零亂與管理和利用的系統(tǒng)化要求之間的矛盾,便于檔案實體管理與查找利用。由于采用計算機自動化檢索,可以方便地找到指定的文件,過細的整理工作已失去存在的意義,而且整理過程中對檔案的裝訂加工也是對檔案載體和原始性的一種損害。為此必須簡化整理工作使之簡明實用,檔案整理只要做到在充分尊重文件形成的自然形態(tài)的基礎上保持文件之間的內(nèi)在聯(lián)系,不必強求外觀上的整齊劃一,而且整理工作的重點應放為檔案計算機檢索系統(tǒng)或管理系統(tǒng)做好數(shù)據(jù)準備上。
以“件”為檔案整理,是從傳統(tǒng)的檔案管理向數(shù)據(jù)庫環(huán)境下的檔案管理過渡的一種銜接,它符合電子文件的形成和發(fā)展規(guī)律,有助于計算機輔助檔案管理,有助于實現(xiàn)電子文件的歸檔。在以“件”為單位對檔案進行整理的過程中,作為文件向檔案轉(zhuǎn)化的一個環(huán)節(jié),“立卷”已是名不符實,在歸檔這一環(huán)節(jié),只是進行介質(zhì)歸檔。當檔案管理中電子文件達到相當比例,技術應用發(fā)達到一定程度,電子文件的歸檔與整理將合而為一。
2、深化檢索工作
在數(shù)據(jù)庫環(huán)境下,檔案信息檢索這一工作環(huán)節(jié)日趨重要。它決定了數(shù)字檔案信息的著標引及存儲,因此要進一步深化檔案檢索工作,為利用者提供高效的信息服務。
3、研究和實現(xiàn)數(shù)字檔案信息的保管保護工作
數(shù)字檔案信息的保管保護,不同于以往任何載體檔案的保管保護。由于數(shù)字檔案信息的存儲載體占用空間較小,利于檔案庫房管理。但是,數(shù)字檔案信息的存儲載體在其保管條件上又有不同于紙質(zhì)檔案的特別要求,包括必須存放在專用庫房中,對庫內(nèi)溫濕度進行嚴格控制。配置防塵、除塵,防磁場和電場的設施。對于使用設備必須嚴格防范計算機病毒,傳統(tǒng)的裱糊、殺蟲等紙質(zhì)檔案保護手段已失去意義。這些數(shù)字檔案信息的存儲、管理都是檔案保管保護工作的新課題。解決這些新課題既要建立新的管理理論、標準和方法,又要采用先進技術手段。
(二)外部重組:文檔一體化及其實現(xiàn)
要更好地實現(xiàn)檔案信息數(shù)據(jù)庫建設,檔案管理工作不僅僅限于內(nèi)部進行一些適當?shù)恼{(diào)整,它還必須向前端的文件工作擴張,這就使得實現(xiàn)文檔一體化的要求變得更為迫切。
文檔一體化就是把文件管理與檔案管理兩個管理管理銜接起來,整合到一個管理系統(tǒng)之中,對文件生命周期的全過程進行統(tǒng)一控制和管理。在電子信息化環(huán)境中,文件與檔案之間不再有明顯的界限,電子文件有可能終其一生就數(shù)據(jù)庫中形成、流轉(zhuǎn)與消亡。所以檔案管理工作要向前端延伸,實現(xiàn)文檔一體化。另外,為了認證電子文件的原始性與可靠性,也要依靠文檔一體化的實現(xiàn),以便能夠清晰地記錄和反映某一份電子文件形成和辦理的全部動態(tài)過程及相關的背景信息。“文檔一體化流程不只是文件管理與檔案管理的簡單對接,而應該是一種管理變革,是以現(xiàn)代信息技術為手段,對機關、企業(yè)、事業(yè)單位及各種組織中文件信息流的重新組織,是一個業(yè)務流程重組的過程。”