中國(guó)語(yǔ)料庫(kù)研究的歷史與現(xiàn)狀

時(shí)間：2024-01-31 11:32:50 馮志偉1由分享

語(yǔ)言學(xué)的研究必須以語(yǔ)言事實(shí)作為根據(jù)，必須詳盡地、大量地占有材料，才有可能在理論上得出比較可靠的結(jié)論。傳統(tǒng)的語(yǔ)言材料的搜集、整理和加工完全是靠手工進(jìn)行的，這是一種枯燥無(wú)味、費(fèi)力費(fèi)時(shí)的工作。計(jì)算機(jī)出現(xiàn)后，人們可以把這些工作交給計(jì)算機(jī)去作，大大地減輕了人們的勞動(dòng)。后來(lái)，在這種工作中逐漸創(chuàng)造了一整套完整的理論和方法，形成了一門(mén)新的學(xué)科——語(yǔ)料庫(kù)語(yǔ)言學(xué)（corpus linguistics），并成為了自然語(yǔ)言處理的一個(gè)分支學(xué)科。

語(yǔ)料庫(kù)語(yǔ)言學(xué)主要研究機(jī)器可讀自然語(yǔ)言文本的采集、存儲(chǔ)、檢索、統(tǒng)計(jì)、語(yǔ)法標(biāo)注、句法語(yǔ)義分析，以及具有上述功能的語(yǔ)料庫(kù)在語(yǔ)言定量分析、詞典編纂、作品風(fēng)格分析、自然語(yǔ)言理解和機(jī)器翻譯等領(lǐng)域中的應(yīng)用。多年來(lái)，機(jī)器翻譯和自然語(yǔ)言理解的研究中, 分析語(yǔ)言的主要方法是句法語(yǔ)義分析。因此，在很長(zhǎng)一段時(shí)間內(nèi)，許多系統(tǒng)都是基于規(guī)則的，而根據(jù)當(dāng)前計(jì)算機(jī)的理論和技術(shù)的水平很難把語(yǔ)言學(xué)的各種事實(shí)和理解語(yǔ)言所需的廣泛的背景知識(shí)用規(guī)則的形式充分地表達(dá)出來(lái)，這樣，這些基于規(guī)則的機(jī)器翻譯和自然語(yǔ)言理解系統(tǒng)只能在極其受限的某些子語(yǔ)言（sub- language）中獲得一定的成功。為了擺脫困境，自然語(yǔ)言處理的研究者者們開(kāi)始對(duì)大規(guī)模的非受限的自然語(yǔ)言進(jìn)行調(diào)查和統(tǒng)計(jì)，以便采用一種基于統(tǒng)計(jì)的模型來(lái)處理大量的非受限語(yǔ)言。不言而喻，語(yǔ)料庫(kù)語(yǔ)言學(xué)將有可能在大量語(yǔ)言材料的基礎(chǔ)上來(lái)檢驗(yàn)傳統(tǒng)的理論語(yǔ)言學(xué)基于手工搜集材料的方法所得出的各種結(jié)論，從而使我們對(duì)于自然語(yǔ)言的各種復(fù)雜現(xiàn)象獲得更為深刻全面的認(rèn)識(shí)。

本文首先簡(jiǎn)要介紹國(guó)外語(yǔ)料庫(kù)的發(fā)展情況，然后，比較詳細(xì)地介紹中國(guó)語(yǔ)料庫(kù)的發(fā)展情況和主要的成績(jī)，使我們對(duì)于語(yǔ)料庫(kù)研究得到一個(gè)鳥(niǎo)瞰式的認(rèn)識(shí)。

一、國(guó)外語(yǔ)料庫(kù)概況

現(xiàn)在，美國(guó)Brown大學(xué)建立了BROWN語(yǔ)料庫(kù)（布朗語(yǔ)料庫(kù)），英國(guó)Lancaster大學(xué)與挪威Oslo大學(xué)與Bergen大學(xué)聯(lián)合建立了 LOB 語(yǔ)料庫(kù)。歐美各國(guó)學(xué)者利用這兩個(gè)語(yǔ)料庫(kù)開(kāi)展了大規(guī)模的研究，其中最引人注目的是對(duì)語(yǔ)料庫(kù)進(jìn)行語(yǔ)法標(biāo)注的研究。他們?cè)O(shè)計(jì)了基于規(guī)則的自動(dòng)標(biāo)注系統(tǒng) TAGGIT 來(lái)給布朗語(yǔ)料庫(kù)的 100 萬(wàn)詞的語(yǔ)料作自動(dòng)標(biāo)注，正確率為 77%. 他們還設(shè)計(jì)了 CLAWS 系統(tǒng)來(lái)給 LOB 語(yǔ)料庫(kù)的100萬(wàn)詞的語(yǔ)料作自動(dòng)標(biāo)注，根據(jù)統(tǒng)計(jì)信息來(lái)建立算法，自動(dòng)標(biāo)注正確率達(dá) 96%, 比基于規(guī)則的 TAGGIT 系統(tǒng)提高了將近 20%. 最近他們同時(shí)考察三個(gè)相鄰標(biāo)記的同現(xiàn)頻率，使自動(dòng)語(yǔ)法標(biāo)注的正確率達(dá)到 99.5%。這個(gè)指標(biāo)已經(jīng)超過(guò)了人工標(biāo)注所能達(dá)到的最高正確率。

現(xiàn)在，國(guó)外的主要語(yǔ)料庫(kù)還有：

London-Lund口語(yǔ)語(yǔ)料庫(kù)：收篇目87篇，每篇5000詞，共為43.4萬(wàn)詞，有詳細(xì)的韻律標(biāo)注(prosodic marking)。

AHI語(yǔ)料庫(kù)：美國(guó)Heritage出版社為編纂Heritage詞典而建立，有400萬(wàn)詞。

OTA牛津文本檔案庫(kù)（Oxford Text Archive）：英國(guó)牛津大學(xué)計(jì)算中心建立，有10億字節(jié)。

BNC英國(guó)國(guó)家語(yǔ)料庫(kù)(British National Corpus)：1995年正式發(fā)布，使用TEI編碼(Text Encoding Initiative)和SGML通用標(biāo)準(zhǔn)置標(biāo)語(yǔ)言的國(guó)際標(biāo)準(zhǔn)(The Standard Generalized Mark up Language, ISO 8879, 1986年公布)。

ACL/DCI美國(guó)計(jì)算語(yǔ)言學(xué)學(xué)會(huì)數(shù)據(jù)采集計(jì)劃：美國(guó)計(jì)算語(yǔ)言學(xué)學(xué)會(huì)(The association for Computational Linguistics, ACL)倡議的數(shù)據(jù)采集計(jì)劃(Data Collection Initiative, DCI)，其宗旨是向非贏利的學(xué)術(shù)團(tuán)體提供語(yǔ)料，以免除費(fèi)用和版權(quán)的困擾，用標(biāo)準(zhǔn)通用置標(biāo)語(yǔ)言SGML統(tǒng)一置標(biāo)，以便于數(shù)據(jù)交換。

LDC語(yǔ)言數(shù)據(jù)聯(lián)合會(huì) (Linguistic data Consortium): 設(shè)在美國(guó)賓州大學(xué)，實(shí)行會(huì)員制，有163 個(gè)語(yǔ)料庫(kù) (包括Text的以及 speech的)，共享語(yǔ)言資源。

RWC日語(yǔ)語(yǔ)料庫(kù)：日本新情報(bào)處理開(kāi)發(fā)機(jī)構(gòu)RWCP研制，包括《每日新聞》4年的全文語(yǔ)料，語(yǔ)素標(biāo)注量達(dá)1億條。

亞洲各語(yǔ)種對(duì)譯作文語(yǔ)料庫(kù)：日本國(guó)立國(guó)語(yǔ)研究所研制，中野洋主持，北京外國(guó)語(yǔ)大學(xué)參加。

為了推進(jìn)語(yǔ)料庫(kù)研究的發(fā)展，歐洲成立了TELRI和ELRA等專門(mén)學(xué)會(huì)。TELRI 是跨歐洲語(yǔ)言資源基礎(chǔ)建設(shè)學(xué)會(huì)(Trans-European Language Resources Infrastructure )的首字母縮寫(xiě)，John Sinclair擔(dān)任主席，由歐洲共同體提供經(jīng)費(fèi)，其目的在于建立歐洲諸語(yǔ)言的語(yǔ)料庫(kù)，現(xiàn)已經(jīng)建成柏拉圖(Plato)的《理想國(guó)》(Politeia) 多語(yǔ)語(yǔ)料庫(kù)，建立了計(jì)算工具和資源的研究文檔TRACTOR (Research Archive of Computational Tools and Resources)，正在語(yǔ)料庫(kù)的基礎(chǔ)上建立歐洲語(yǔ)言詞庫(kù)EUROVOCA。TELRI每年召開(kāi)一次Seminar 。最近的一次Seminar在Lubljana, (Slovenia)召開(kāi)(22.September – 26.September.2000)，主題是從語(yǔ)料庫(kù)中自動(dòng)抽取知識(shí)（Automatic knowledge extraction）。ELRA是歐洲語(yǔ)言資源學(xué)會(huì) (European Language Resources Associationi)的首字母縮寫(xiě)，由Zampolli擔(dān)任主席， ELRA負(fù)責(zé)搜集、傳播語(yǔ)言資源并使之商品化，對(duì)于語(yǔ)言資源的使用提供法律支持。ELRA建立了歐洲語(yǔ)言資源分布服務(wù)處ELDA (European Language resources Distribution Agency)，負(fù)責(zé)研制并推行ELRA的戰(zhàn)略和計(jì)劃。ELRA還組織語(yǔ)言資源和評(píng)價(jià)國(guó)際會(huì)議LREC (Language Resources & Evaluation Congress), 每?jī)赡暌淮巍５谝淮螘?huì)議于1998年在西班牙的Grenade舉行；第二次會(huì)議在Athens（Greece）召開(kāi)（31.May – 02.June.2000），第三次會(huì)議于2002年在西班牙的Las Palmas de Gran Canaria 召開(kāi)(27.May – 02.June 2002)。

二、我國(guó)語(yǔ)料庫(kù)的發(fā)展概況

（一）早期的漢語(yǔ)語(yǔ)料庫(kù)

1、我國(guó)語(yǔ)料庫(kù)研究的先河

在我國(guó)，從20世紀(jì)20年代開(kāi)始，就有學(xué)者建立文本的語(yǔ)料庫(kù)，采用統(tǒng)計(jì)的方法來(lái)研究漢字的頻率，其目的在于制定基礎(chǔ)漢字的字表。當(dāng)然，這樣的語(yǔ)料庫(kù)不是機(jī)器可讀的，規(guī)模也很小，它是現(xiàn)代語(yǔ)料庫(kù)的雛形，開(kāi)我國(guó)語(yǔ)料庫(kù)研究的先河，在我國(guó)語(yǔ)料庫(kù)的發(fā)展史上是功不可沒(méi)功的。著名教育學(xué)家陳鶴琴為了教學(xué)的目的，在對(duì)語(yǔ)料統(tǒng)計(jì)的基礎(chǔ)上，編寫(xiě)了《語(yǔ)體文應(yīng)用字匯》，于1925年完成，于1928年由商務(wù)印書(shū)館出版，陳書(shū)前有“緒論”，說(shuō)明“ 中文應(yīng)用字匯”曾有多種，其中包括P.克侖茨(Pastor P. Kronz)的研究和他自己的編寫(xiě)的《常用四千字表》。陳鶴琴做過(guò)兩次統(tǒng)計(jì)，第一次統(tǒng)計(jì)使用了六種材料，包含554,478個(gè)漢字的語(yǔ)料，得不同漢字 4261個(gè)；第二次使用包含34,818個(gè)漢字的語(yǔ)料，得出與4261個(gè)漢字相異的漢字458個(gè)。第二次統(tǒng)計(jì)所得的成果毀于戰(zhàn)火，在《語(yǔ)體文應(yīng)用字匯》中印出的只是第一次統(tǒng)計(jì)的結(jié)果。

陳鶴琴用的語(yǔ)料分如下六類：

兒童用書(shū)：127,293字；

報(bào)刊（以通俗報(bào)刊為主）：153,344字；

婦女雜志：90,142字；

小學(xué)生課外作品：51,807字；

古今小說(shuō)：71,267字；

雜類：60,625字。

書(shū)末附有“字?jǐn)?shù)次數(shù)對(duì)照表”，這是按漢字在語(yǔ)料中出現(xiàn)的絕對(duì)頻率排列的字表。

我國(guó)著名教育家陶行知先生為《語(yǔ)體文應(yīng)用字匯》寫(xiě)了序言。序言中說(shuō)：“他們（指“近代教育家”）對(duì)于一門(mén)一門(mén)的功課，甚至一篇文章，一個(gè)算題，一項(xiàng)運(yùn)動(dòng)，都要依據(jù)目標(biāo)去問(wèn)他們的效用。他們的主張是要所學(xué)的，即是所用的。......到了后來(lái)他們連學(xué)生學(xué)的字也要審查起來(lái)了。學(xué)生現(xiàn)在所學(xué)的字，個(gè)個(gè)字都是有用的字嗎？自從這個(gè)問(wèn)題發(fā)生就有好幾位學(xué)者開(kāi)始研究應(yīng)用字匯。我國(guó)方面也有幾位先生研究這個(gè)問(wèn)題，其中以陳鶴琴先生的研究最有系統(tǒng)。他和他的助理九人先后費(fèi)了二三年工夫，檢查了幾十萬(wàn)字的語(yǔ)體文，編成這本《語(yǔ)體文應(yīng)用字匯》。這冊(cè)報(bào)告未付印以前已經(jīng)做了《平民千子課》用字的根據(jù)。將來(lái)小學(xué)課本用字當(dāng)然也可以拿他來(lái)做一個(gè)很好的根據(jù)。雖然不能十分完備，但我想這本字匯對(duì)于成人及國(guó)民教育一定是有很大的貢獻(xiàn)的。”（見(jiàn)陳鶴琴《語(yǔ)體文應(yīng)用字匯》，商務(wù)印書(shū)館，1928年）。

2、早期的機(jī)器可讀語(yǔ)料庫(kù)

從1979年以來(lái)，中國(guó)就開(kāi)始進(jìn)行機(jī)器可讀語(yǔ)料庫(kù)的建設(shè)，早期在中國(guó)建立的主要的機(jī)器可讀語(yǔ)料庫(kù)有：

漢語(yǔ)現(xiàn)代文學(xué)作品語(yǔ)料庫(kù)（1979年），527萬(wàn)字，武漢大學(xué)。

現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)（1983年），2000萬(wàn)字，北京航天航空大學(xué)。

中學(xué)語(yǔ)文教材語(yǔ)料庫(kù)（1983年），106萬(wàn)8千字，北京師范大學(xué)。

現(xiàn)代漢語(yǔ)詞頻統(tǒng)計(jì)語(yǔ)料庫(kù)（1983年），182萬(wàn)字，北京語(yǔ)言學(xué)院。

我們以北京語(yǔ)言學(xué)院的漢語(yǔ)詞頻統(tǒng)計(jì)語(yǔ)料庫(kù)來(lái)說(shuō)明早期語(yǔ)料庫(kù)的情況。

1979年，北京語(yǔ)言學(xué)院（現(xiàn)在改名為“北京語(yǔ)言文化大學(xué)”）針對(duì)對(duì)外漢語(yǔ)教學(xué)的特點(diǎn)，把“現(xiàn)代漢語(yǔ)詞匯統(tǒng)計(jì)研究”作為重點(diǎn)科研課題，開(kāi)始進(jìn)行規(guī)模較大的漢語(yǔ)單詞的頻率統(tǒng)計(jì)研究。

這項(xiàng)研究工作，采用人工與計(jì)算機(jī)相結(jié)合的方式，對(duì)179篇樣文、182萬(wàn)字的語(yǔ)料進(jìn)行了詞語(yǔ)切分、詞頻統(tǒng)計(jì)和數(shù)據(jù)分析的工作，統(tǒng)計(jì)的總詞匯量為 1,315,752詞次，含不同單詞31,159個(gè)，其中包括十年制語(yǔ)文課本（52萬(wàn)字，374,654詞次）的字頻和詞頻的定量分析，統(tǒng)計(jì)結(jié)果編成《現(xiàn)代漢語(yǔ)頻率詞典》出版。

他們選取的語(yǔ)料可以分為如下四類：

報(bào)刊政論：44萬(wàn)字，占語(yǔ)料總量的24.4%。

科技和科普文章：29萬(wàn)字，占語(yǔ)料總量的19.8%。

口語(yǔ)材料：20萬(wàn)字，占語(yǔ)料總量的11.1%。

文學(xué)作品：89萬(wàn)字，占語(yǔ)料總量的48.7%。

整個(gè)語(yǔ)料共182萬(wàn)字。這樣容量的語(yǔ)料，在當(dāng)時(shí)已經(jīng)是比較大的語(yǔ)料庫(kù)了。

根據(jù)數(shù)理統(tǒng)計(jì)的原理，所統(tǒng)計(jì)的語(yǔ)料的總體個(gè)數(shù)必須達(dá)到一定足夠的數(shù)量，才能保證統(tǒng)計(jì)結(jié)果符合客觀實(shí)際。《現(xiàn)代漢語(yǔ)頻率詞典》的編者認(rèn)為，如果常用詞的出現(xiàn)頻率不低于百萬(wàn)分之一，也就是在一百萬(wàn)次的場(chǎng)合，常用詞的出現(xiàn)機(jī)會(huì)至少應(yīng)該有一次，就可以保證統(tǒng)計(jì)結(jié)果的客觀性。《現(xiàn)代漢語(yǔ)頻率詞典》實(shí)際上統(tǒng)計(jì)了 182萬(wàn)個(gè)漢字的語(yǔ)料，因此，其抽樣是合理的、經(jīng)濟(jì)的、適度的。

但是，國(guó)外在1971年進(jìn)行英語(yǔ)詞頻統(tǒng)計(jì)時(shí)，所用語(yǔ)料量有5,088,721個(gè)詞，包含不同單詞86,741個(gè)，統(tǒng)計(jì)規(guī)模比《現(xiàn)代漢語(yǔ)頻率詞典》大得多。由于語(yǔ)料庫(kù)語(yǔ)言學(xué)的發(fā)展，語(yǔ)料庫(kù)的容量不斷擴(kuò)大，現(xiàn)在，數(shù)千萬(wàn)詞甚至于數(shù)億詞的語(yǔ)料庫(kù)已經(jīng)不算少見(jiàn)。與當(dāng)前語(yǔ)料庫(kù)的容量比較起來(lái)，《現(xiàn)代漢語(yǔ)頻率詞典》所依據(jù)的語(yǔ)料規(guī)模是小了一些。不過(guò)，盡管這樣，《現(xiàn)代漢語(yǔ)頻率詞典》在詞頻統(tǒng)計(jì)方面取得的成績(jī)?nèi)匀皇呛艽蟮摹?/p>

這次詞頻統(tǒng)計(jì)得出了如下詞表：

1、按字母音序排列的頻率詞表：共列出常用詞16,593個(gè)，按音序排列，從中可以看出：

漢語(yǔ)中以Z、S、J、Y開(kāi)頭的詞較多：以Z開(kāi)頭的詞有1457個(gè)，占8.78%；以S開(kāi)頭的詞有1327個(gè)，占7.99%；以J開(kāi)頭的詞有1243個(gè)，占7.49%；以Y開(kāi)頭的詞有1205個(gè)，占7.26%。

漢語(yǔ)中以E、O開(kāi)頭的詞很少：以E開(kāi)頭的詞只有64個(gè)，占0.38%；以O(shè)開(kāi)頭的詞只有13個(gè)，占0.07%。

2、按頻率遞減的順序排列的詞表：在詞表中，最常用詞的使用頻率相當(dāng)高，前100個(gè)詞占了語(yǔ)料總量的40%以上，前500個(gè)詞占了語(yǔ)料總量的70% 以上，前2562個(gè)詞占了語(yǔ)料總量的85%，詞表共有不同單詞31,159個(gè)，這些詞占了語(yǔ)料總量的100%。從前100個(gè)詞到前500個(gè)詞，不同的單詞數(shù)增加了400個(gè)，百分比就增加了30%，而從前2562個(gè)詞到前31,159個(gè)詞，不同單詞數(shù)增加了30,597個(gè)，百分比材增加了15%。由此可見(jiàn)，高頻詞對(duì)于百分比的增加有著很大的作用，而低頻詞對(duì)于百分比的增加，其作用是微乎其微的，往往要大量的低頻詞，才能使百分比增加一點(diǎn)點(diǎn)。

3、按使用度遞降順序排列的詞表：

使用度是1954年尤蘭德(Juilland)和洛德西蓋(Chang-Rodsiguez)在計(jì)算西班牙語(yǔ)的詞匯頻率時(shí)提出的一個(gè)新概念,他們并且也提出了計(jì)算使用度的數(shù)學(xué)公式，根據(jù)這個(gè)使用度公式計(jì)算出的使用度，可以綜合地反映單詞在出現(xiàn)頻率和分布率兩方面的情況。

他們根據(jù)使用度的計(jì)算公式，計(jì)算了單詞的使用度，并給出了按使用度遞降順序排列的詞表。這個(gè)詞表又分為兩個(gè)表：使用度較高的前8000詞的詞表，使用度較低的詞語(yǔ)單位表。

在使用度較高的前8000詞的詞表中，使用度在20以上的詞共4186個(gè)，其詞次累計(jì)占了全部語(yǔ)料（314,404詞次）的90.1%。這說(shuō)明，《現(xiàn)代漢語(yǔ)頻率詞典》所統(tǒng)計(jì)的語(yǔ)料中，有十分之九是用這4186個(gè)詞寫(xiě)成的，這些詞可以成為“常用詞”的候選對(duì)象。

在使用度較低的詞語(yǔ)單位表中，收入了使用度為5及小于5的詞22,446個(gè)，這些詞一般也都是低頻詞。在這種情況下，如果有的詞的使用度和頻率相匹配，則說(shuō)明這些詞的分布還是比較均勻的，這些詞可以作為“通用詞”的候選對(duì)象。

4、按語(yǔ)體分類的高頻詞表，又可再分為4個(gè)表：

a.報(bào)刊政論語(yǔ)體的前4000詞的詞表：本表共統(tǒng)計(jì)34種語(yǔ)料，29萬(wàn)詞次(44萬(wàn)字)，有不同詞條數(shù)12,107個(gè)。前4000個(gè)詞累計(jì)頻率94.77%。其中一些政治詞語(yǔ)，如“唯心、黨派”等，在本表中出現(xiàn)頻率都比較高，反映了政論語(yǔ)體的特點(diǎn)。

b.科普語(yǔ)體的前4000詞的詞表：本表共統(tǒng)計(jì)21種語(yǔ)料，20萬(wàn)詞次(29萬(wàn)字)，有不同詞條12,364個(gè)。前4000個(gè)詞累計(jì)頻率92.27%。其中一些科技用語(yǔ)，如“纖維、合成”等，在本表中出現(xiàn)頻率都比較高，反映了科普語(yǔ)體的特點(diǎn)。

c.生活口語(yǔ)中前4000詞的詞表：本表共統(tǒng)計(jì)18種語(yǔ)料，16萬(wàn)詞次(20萬(wàn)字)，有不同詞條8263個(gè)。前4000個(gè)詞的累計(jì)頻率為 96.65%。從統(tǒng)計(jì)數(shù)字可以看出，口語(yǔ)語(yǔ)體的用詞量比前兩種語(yǔ)體要少三分之一，但高頻詞出現(xiàn)的詞次卻相當(dāng)多，前1000個(gè)高頻詞的出現(xiàn)頻率比a表高出 6%，比b表高出12%。這意味著，口語(yǔ)語(yǔ)體的用詞量雖然不大，但是它們的出現(xiàn)次數(shù)對(duì)語(yǔ)料的覆蓋面卻相當(dāng)大。

d.文學(xué)作品類前4000高頻詞的詞表：本表共統(tǒng)計(jì)106種語(yǔ)料，66萬(wàn)詞次(89萬(wàn)字)，有不同詞條23,622個(gè)。前4000個(gè)高頻詞累計(jì)頻率為90.63%。這說(shuō)明文學(xué)作品的用詞量大，但是為了追求用詞的多樣化，即使是高頻詞的出現(xiàn)頻率也比較低，這反映了文學(xué)作品詞匯豐富多采的特點(diǎn)。

早期的這些語(yǔ)料庫(kù)的具有如下特點(diǎn)：

①多數(shù)是采用手工鍵入的方式建立的，耗時(shí)耗力，缺乏規(guī)范，規(guī)模較小，重用性差。為了建設(shè)這樣的語(yǔ)料庫(kù)，需要付出艱辛的勞動(dòng)，著名專家劉源教授（北京航空航天大學(xué)計(jì)算機(jī)系教授）在2000萬(wàn)字的語(yǔ)料庫(kù)建設(shè)中積勞成疾，健康受到嚴(yán)重的損害。我國(guó)語(yǔ)料庫(kù)的早期建設(shè)者的敬業(yè)精神是值得我們尊敬的。

②發(fā)現(xiàn)了漢語(yǔ)文本切分歧義的兩種類型：北航和北語(yǔ)的語(yǔ)料庫(kù)進(jìn)行了詞頻統(tǒng)計(jì)，北航還進(jìn)行了自動(dòng)分詞研究，發(fā)現(xiàn)了兩種不同的分詞歧義字段（Ambiguous Segmentation Strings, ASSs）：交集型歧義字段和多義組合型歧義字段。

交集型歧義切分字段：例如：“地面積”可能切為“地面”或“面積”，“面”成為交段，從而產(chǎn)生歧義。

多義組合型歧義切分字段：例如：“馬上”本身是一個(gè)詞，但也可以切為“馬”+“上”兩個(gè)單詞，而“馬上”與“馬”+“上”的含義不同。

梁南元（1987）對(duì)一個(gè)48092字的自然科學(xué)、社會(huì)科學(xué)樣本進(jìn)行了統(tǒng)計(jì)：交集型切分歧義518個(gè), 多義組合型切分歧義42個(gè)。據(jù)此推斷，中文文本中切分歧義的出現(xiàn)頻度約為1.2次/100字，交集型切分歧義與多義組合型切分歧義的出現(xiàn)比例約為12:1。

③建立了初步的分詞規(guī)范：1990年10月，在計(jì)算機(jī)界和語(yǔ)言學(xué)界的共同努力下，我國(guó)制定了國(guó)家標(biāo)準(zhǔn)GB-13715《信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范》，這個(gè)國(guó)家標(biāo)準(zhǔn)提出了確定漢語(yǔ)單詞切分的原則，是漢語(yǔ)書(shū)面語(yǔ)自動(dòng)切詞的重要依據(jù)。

（二）國(guó)家級(jí)語(yǔ)料庫(kù)的建設(shè)

1991年，國(guó)家語(yǔ)言文字工作委員會(huì)開(kāi)始建立國(guó)家級(jí)的大型漢語(yǔ)語(yǔ)料庫(kù)，以推進(jìn)漢語(yǔ)的詞法、句法、語(yǔ)義和語(yǔ)用的研究，同時(shí)也為中文信息處理的研究提供語(yǔ)言資源，計(jì)劃其規(guī)模將達(dá)7000萬(wàn)漢字，當(dāng)時(shí)宣稱，這將成為世界上最大的漢語(yǔ)語(yǔ)料庫(kù)。這個(gè)語(yǔ)料庫(kù)是均衡語(yǔ)料庫(kù)。其語(yǔ)料要經(jīng)過(guò)精心的選材，語(yǔ)料的選材應(yīng)受到如下限制：

①時(shí)間的限制：語(yǔ)料描述具有歷時(shí)特征，著重描述共時(shí)特征。選取從1919年到當(dāng)代的語(yǔ)料（分為5個(gè)時(shí)期），以1977年以后的語(yǔ)料為主。

②文化的限制：主要選取受過(guò)中等文化教育的普通人能理解的語(yǔ)料。

③使用領(lǐng)域的限制：語(yǔ)料由人文與社會(huì)科學(xué)類、自然科學(xué)類和綜合類3大部分，人文和社會(huì)科學(xué)再分為8大類29小類，自然科學(xué)再分為6大類，綜合類再分為2大類。主要選取通用的語(yǔ)料，優(yōu)先選取社會(huì)科學(xué)和人文科學(xué)的語(yǔ)料。

這個(gè)語(yǔ)料庫(kù)現(xiàn)在只完成了2000萬(wàn)字語(yǔ)料的輸入和校對(duì)工作，尚未進(jìn)行進(jìn)一步的加工，還是“生語(yǔ)料庫(kù)”，因而還不能提供社會(huì)使用。由于主要靠手工錄入，人工勞動(dòng)的成本很高，據(jù)說(shuō)單是建立生語(yǔ)料庫(kù)，耗資約200萬(wàn)人民幣。

為了加工這個(gè)國(guó)家級(jí)語(yǔ)料庫(kù)，國(guó)家社科基金設(shè)立了社科重大項(xiàng)目“信息處理用現(xiàn)代漢語(yǔ)詞匯研究”，希望利用該項(xiàng)目的成果來(lái)加工這個(gè)語(yǔ)料庫(kù)。該課題分10個(gè)子課題：

①信息處理用現(xiàn)代漢語(yǔ)分詞詞表

②歧義切分與專有名詞識(shí)別軟件

③詞的構(gòu)造研究

④現(xiàn)代漢語(yǔ)詞類及標(biāo)記集規(guī)范

⑤漢語(yǔ)詞類兼類研究

⑥現(xiàn)代漢語(yǔ)的語(yǔ)法屬性描述研究

⑦現(xiàn)代漢語(yǔ)述語(yǔ)動(dòng)詞機(jī)器詞典和槽關(guān)系研究

⑧漢語(yǔ)知識(shí)詞典建立及詞匯內(nèi)部語(yǔ)義網(wǎng)絡(luò)描述研究

⑨漢語(yǔ)文本短語(yǔ)結(jié)構(gòu)的人工標(biāo)注

⑩常用動(dòng)詞語(yǔ)義特征及詞義搭配研究

現(xiàn)在，該課題已經(jīng)結(jié)項(xiàng)，國(guó)家語(yǔ)委語(yǔ)言文字應(yīng)用研究所成立了“漢語(yǔ)語(yǔ)料庫(kù)深加工”的課題組，準(zhǔn)備對(duì)國(guó)家級(jí)語(yǔ)料庫(kù)的2000萬(wàn)字的核心語(yǔ)料進(jìn)行深加工，逐步把這個(gè)生語(yǔ)料庫(kù)變?yōu)槭煺Z(yǔ)料庫(kù)。

（三）大規(guī)模真實(shí)文本語(yǔ)料庫(kù)

1992年以來(lái)，大量的語(yǔ)料庫(kù)在中國(guó)研究中文信息處理的單位建立起來(lái)，語(yǔ)料庫(kù)成為了研究中文信息處理的基本語(yǔ)言資源。沒(méi)有語(yǔ)料庫(kù)的支持，中文信息處理的研究將會(huì)寸步難行。建設(shè)大規(guī)模真實(shí)文本語(yǔ)料庫(kù)的單位有：《人民日?qǐng)?bào)》光盤(pán)數(shù)據(jù)庫(kù)，北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所，北京語(yǔ)言文化大學(xué)，清華大學(xué)，山西大學(xué)，上海師范大學(xué)，北京郵電大學(xué)，香港城市理工大學(xué)，東北大學(xué)，哈爾濱工業(yè)大學(xué)，中國(guó)科學(xué)院軟件研究所，中國(guó)科學(xué)院自動(dòng)化所，北京外國(guó)語(yǔ)大學(xué)日本學(xué)研究中心，臺(tái)灣中央研究院語(yǔ)言研究所（籌備處）。下面分別加以介紹。

1、《人民日?qǐng)?bào)》光盤(pán)數(shù)據(jù)庫(kù)

收集該報(bào)48年的全部文字和圖像內(nèi)容，公開(kāi)發(fā)行。

2、北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所

該研究所建立了現(xiàn)代漢語(yǔ)標(biāo)注語(yǔ)料庫(kù)，與富士通公司（Fujitsu）合作，加工2700萬(wàn)字的《人民日?qǐng)?bào)》語(yǔ)料庫(kù)，加工項(xiàng)目包括詞語(yǔ)切分、詞性標(biāo)注、專有名詞（專有名詞短語(yǔ)）標(biāo)注。還要對(duì)多音詞注音。

示例1：古城/n 雖/c 遭/v 破壞/v ，/w 但/c 它/r 留下/v 了[le5]/u 契丹族/nz 和[he2] 各[ge4]/r 民族/n ，/w 特別/d 是/v 漢族/nz 勞動(dòng)/vn 人民/n 共同/d 開(kāi)拓/v 祖國(guó)/n 北疆/s ，/w 創(chuàng)造/v 我國(guó)/r 歷史/n 文明/n 的[de5]/u 足跡/n 。/w

示例2：19970310-01-002-0020/m [全國(guó)/n 人大/j]nt 代表/n 、/w [陜西/ns 西安/ns 美術(shù)/n 學(xué)院/n]nt 名譽(yù)/n 院長(zhǎng)/n 劉/nr 文西/nr 利用/v 會(huì)議/n 休息/vn 時(shí)間/n 創(chuàng)作/v 了/u 鄧/nr 小平/nr 畫(huà)像/n 《/w 與/p 人民/n 同/d 在/v 》/w 。/w 畫(huà)像/n 表現(xiàn)/v 了/u 鄧/nr 小平/nr 同志/n 祝愿/v 祖國(guó)/n 繁榮/a 、/w 人民/n 幸福/a 的/u 偉大/a 胸懷/n 。/w （/w 新華社/nt 記者/n 齊/nr 鐵硯/nr 攝/v ）/w

示例3：19970310-01-003-0020/m 世紀(jì)/n 之/u 交/Ng ，/w 中華/nz 民族/n 正/d 迎來(lái)/v 前所未有/i 的/u 發(fā)展/vn 機(jī)遇/n 。/w 十幾/m 年/q 來(lái)/f ，/w 改革/v 開(kāi)放/v 的/u 不斷/d 深入/v ，/w 黨/n 的/u 民族/n 政策/n 的/u 貫徹/vn 落實(shí)/vn ，/w 全國(guó)/n 人民/n 的/u 大力/d 支援/v ，/w 使/v 我國(guó)/r 民族/n 地區(qū)/n 經(jīng)濟(jì)/n 和/c 社會(huì)/n 發(fā)展/vn 步伐/n 大大/d 加快/v 。/w 加倍/d 珍視/v 和/c 繼續(xù)/vd 發(fā)展/v 這種/r 好/a 的/u 局面/n ，/w 鞏固/v 發(fā)展/v 各/r 民族/n 大/a 團(tuán)結(jié)/an ，/w 成為/v 全國(guó)/n 各族/r 人民/n 的/u 共同/b 愿望/n ，/w 也是/v 在/p 京/j 參加/v “/w 兩會(huì)/j ”/w 的/u 代表/n 和/c 委員/n 的/u 一致/a 心愿/n 。/w

經(jīng)富士通公司檢驗(yàn)，標(biāo)注的正確率很高。

他們制訂《現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)加工手冊(cè)——詞語(yǔ)切分與詞性標(biāo)注》。切分規(guī)范中，主要規(guī)定現(xiàn)代漢語(yǔ)的切詞原則，即什么樣的漢字組合可以為一個(gè)切分單位。他們采用切分和標(biāo)注相結(jié)合的原則來(lái)建立規(guī)范，在漢語(yǔ)中，像“雙音節(jié)動(dòng)詞＋單音節(jié)名詞”通常構(gòu)成新的名詞，對(duì)于這個(gè)新的名詞，即使在詞典中沒(méi)有登錄，也應(yīng)該把它們處理為一個(gè)切分單位。因此，在該規(guī)范中，給出了一些基于詞性描述的構(gòu)詞規(guī)律，規(guī)定了什么樣的組合可以處理為一個(gè)切分單位，并給出了新組合的詞的詞性標(biāo)記。在標(biāo)注規(guī)范中，規(guī)定了一般詞性的標(biāo)注規(guī)范和專有名詞的規(guī)范。

此外，他們還建立了一個(gè)小型漢語(yǔ)樹(shù)庫(kù)：與新加坡國(guó)立大學(xué)計(jì)算機(jī)系合作，內(nèi)容為新加坡中學(xué)語(yǔ)文教材（1995年），所有的句子都分析為樹(shù)形圖。

示例：

[zj [dj 富士山/n [vp 是/v [np 日本/n 的/u [np [mp 一/m 座/q ] 活火山/n ]]]] 。/w ] [zj [fj [fj [dj 山峰/n [vp 終年/d 積雪/v ]] ，/w [dj 云霧/n 圍繞/v ]] ，/w [vp 只有/d [vp [pp 在/p [np [dj 空氣/n 干燥/a ] 的/u [np [np 秋/n 冬/n ] [np 兩/m 季/Ng ]]]] ，/w [vp 才/d [vp 能/v [vp [vbar 看/v 清/a ] [np 它/r 的/u 全貌/n ]]]]]]] 。/w ]

[zj [fj [dj [np [vbar 多/d 變/v ] 的/u 氣候/n ] ，/w [vp 更/d [vp [pp 為/p 它/r ] [vp [vbar 增添/v 了/u ] [np 神秘/a 的/u 色彩/n ]]]]] ，/w [vp 甚至/d [vp 使/v 它/r [vp [vbar 孕育/v 了/u ] [np 許多/m [np 美麗/a 的/u 神話/n ]]]]]] 。/w ]

[zj [dj [np 富士山/n 的/u 景色/n ] ，/w [dj 四季/t 不同/a ]] 。/w ]

[zj [fj [fj [fj [fj 春天/t ，/w [fj [dj 山頂/s [vp 還/d [vp [vbar 戴/v 著/u ] [np 雪/n 帽子/n ]]]] ，/w [fj [dj [dj [np 山腰/n 的/u 雪/n ] [vp 卻/d 溶化/v ]] 了/y ] ，/w [fj [dj [np 細(xì)碎/a 的/u [np 小/a 花/n ]] [vp 開(kāi)遍/v 山坡/n ]] ，/w [vp [vbar 遠(yuǎn)/a 看/v ] [vp 象/v [np [mp 一/m 片/q ] [np 紫色/n 的/u 海洋/n ]]]]]]]] ，/w [fj 夏天/t ，/w [fj [dj [np [np 殘/Vg 雪/n ] 與/c [np 山/n 花/n ]] [vp 倒映/v [sp 湖/n 中/f ]]] ，/w [vp 充滿/v 詩(shī)情畫(huà)意/n ]]]] ，/w [fj 秋天/t ，/w [fj [dj [np [np [np 滿/a 山/n ] 紅葉/n ] 與/c [np 雪/n 影/Ng ]] 輝映/v ] ，/w [vp 象/v [np 個(gè)/q [np 嬌羞/a 的/u 姑娘/n ]]]]]] ，/w [fj [dj 冬天/t [dj 則/c [vp 是/v [np [ap 純/a 白/a ] 的/u [mp 一/m 片/q ]]]]] ，/w [ap 莊嚴(yán)/a 而/c 圣潔/a ]]] 。/w ]

北大語(yǔ)料庫(kù)研究的特色是：

①規(guī)模大：加工成的熟語(yǔ)料已經(jīng)達(dá)到2000萬(wàn)字，不久將達(dá)到2700萬(wàn)字，國(guó)內(nèi)尚無(wú)先例。

②加工深：不僅做了切分和詞性標(biāo)注，而且部分語(yǔ)料還進(jìn)行了短語(yǔ)結(jié)構(gòu)分析，建立了樹(shù)庫(kù)。在大規(guī)模的語(yǔ)料庫(kù)中，地名和專有名詞都進(jìn)行了短語(yǔ)結(jié)構(gòu)標(biāo)注。

③覆蓋面廣：人民日?qǐng)?bào)的語(yǔ)料不僅包括新聞，還包括各種題材、各種風(fēng)格、各種語(yǔ)體的文章，涉及社會(huì)科學(xué)和自然科學(xué)多種領(lǐng)域，有很廣泛的覆蓋面。

④正確率高：在自動(dòng)加工的基礎(chǔ)上進(jìn)行了大量的人工加工，采用人機(jī)結(jié)合的策略，是語(yǔ)料庫(kù)加工的正確率達(dá)到了國(guó)內(nèi)最高水平，在國(guó)際上也是罕見(jiàn)的。

⑤無(wú)著作權(quán)糾紛：與《人民日?qǐng)?bào)》達(dá)成協(xié)議，沒(méi)有著作權(quán)問(wèn)題。

3、北京語(yǔ)言文化大學(xué)

該校計(jì)算機(jī)系宋柔在遠(yuǎn)景校對(duì)系統(tǒng)的研究、開(kāi)發(fā)和測(cè)試過(guò)程中一直注重采用大規(guī)模真實(shí)語(yǔ)料進(jìn)行各種語(yǔ)言現(xiàn)象的統(tǒng)計(jì)、分析、檢索、歸納。為此，他們與一些報(bào)社、出版社合作，收集、整理了一批綜合性、規(guī)范性的電子文檔資料，建立了一個(gè)大型的中文語(yǔ)料庫(kù)（共約5億字）。在獲取語(yǔ)料后，又專門(mén)用工具軟件或人工加工清理了語(yǔ)料，分別建立了10個(gè)語(yǔ)料庫(kù)。各語(yǔ)料庫(kù)情況如下：

《當(dāng)代中國(guó) 叢書(shū)》：150卷（約6千萬(wàn)漢字）

《中華人民共和國(guó)年鑒》：1997年語(yǔ)料（約200萬(wàn)漢字）

《新聞出版報(bào)》：1988年語(yǔ)料（約260萬(wàn)漢字）

《輝煌五十年湖南卷》：1949-1999年語(yǔ)料（約70萬(wàn)漢字）

《人民日?qǐng)?bào)》：1993-2000年七年語(yǔ)料（約2億字）

《人民日?qǐng)?bào) 市場(chǎng)報(bào)》：2000年語(yǔ)料（約1400萬(wàn)漢字）

《人民日?qǐng)?bào) 華南新聞：2000年語(yǔ)料（約600萬(wàn)漢字）

《人民日?qǐng)?bào) 華東新聞》：2000年語(yǔ)料（約500萬(wàn)漢字）

《經(jīng)濟(jì)日?qǐng)?bào)》：1992年語(yǔ)料（約1820萬(wàn)字）

《新華社》：1994-1996年三年語(yǔ)料（約3793萬(wàn)字）

宋柔還建立了面向語(yǔ)言學(xué)研究的漢語(yǔ)語(yǔ)料庫(kù)檢索系統(tǒng)CCRL，可以讓用戶使用自己的生語(yǔ)料庫(kù)和詞典生成語(yǔ)料索引，進(jìn)行檢索。

此外，北京語(yǔ)言文化大學(xué)還建立了如下的語(yǔ)料庫(kù)：

當(dāng)代北京口語(yǔ)語(yǔ)料庫(kù)（1992年）

現(xiàn)代漢語(yǔ)語(yǔ)法研究語(yǔ)料庫(kù)（1995年）

現(xiàn)代漢語(yǔ)句型語(yǔ)料庫(kù)（1995年）

現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)（1998年，與香港理工大學(xué)中文及雙語(yǔ)學(xué)系聯(lián)合建立）

現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)（1998年，與清華大學(xué)聯(lián)合，為國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目“語(yǔ)料庫(kù)語(yǔ)言學(xué)研究的理論、方法和工具”而建立）

4、清華大學(xué)

該大學(xué)也建立了現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)：1998年建立了1億漢字的語(yǔ)料庫(kù)，著重研究歧義切分問(wèn)題。現(xiàn)在生語(yǔ)料庫(kù)已達(dá)7-8億字。

他們還編制了信息處理用現(xiàn)代漢語(yǔ)分詞詞表，作為分詞最重要的語(yǔ)言資源。

中文系羅振聲建立了現(xiàn)代漢語(yǔ)句型研究語(yǔ)料庫(kù)，從中總結(jié)出209種漢語(yǔ)句型。

清華大學(xué)智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室與北京語(yǔ)言文化大學(xué)語(yǔ)言信息處理研究所聯(lián)合研發(fā)的人工標(biāo)注語(yǔ)料庫(kù)HuaYu。這個(gè)語(yǔ)料庫(kù)區(qū)別于其它類似語(yǔ)料庫(kù)的特點(diǎn):是：分布平衡, 不僅僅限于新聞報(bào)紙。

HuaYu的分布見(jiàn)表1：

分類篇數(shù) 漢字?jǐn)?shù) 比例標(biāo)點(diǎn)符號(hào)數(shù) 詞次數(shù) 比例

文學(xué) 295 880,057 44% 148,453 760,337 48%

新聞 376 600,490 30% 86,163 438,095 28%

學(xué)術(shù) 29 402,623 20% 52,823 278,728 18%

應(yīng)用文 258 119,488 6% 28,727 91,929 6%

合計(jì) 958 2,002,658 100% 316,116 1,569,089 100%

表 1 Hua Yu語(yǔ)料庫(kù)的分布

其中文學(xué)語(yǔ)料的分布見(jiàn)表2：

分類篇數(shù) 漢字?jǐn)?shù) 百分比標(biāo)點(diǎn)符號(hào)數(shù) 詞次數(shù)

小說(shuō) 199 648,796 32.5% 112,749 566,730

散文 37 80,067 4% 10,347 65,453

回憶錄 29 50,401 2.5% 6,908 38,338

報(bào)告文學(xué) 13 50,019 2.5% 8,225 40,386

劇本 17 50,774 2.5% 10,224 49,430

合計(jì) 295 880,057 44% 148,453 760,337

表 2 文學(xué)語(yǔ)料的分布

他們對(duì)這個(gè)語(yǔ)料庫(kù)進(jìn)行了切分和標(biāo)注。

語(yǔ)料示例如下：

我|rn 認(rèn)識(shí)|vgn 王眉|npc 的|usd 時(shí)候|ng ，|，她|rn 十|mw 三|mx 歲|qnm ，|，我|rn 二|mx 十|mw 歲|qnm 。|。那時(shí)|t 我|rn 正|dr 在|pza 海軍|ng 服役|vgi ，|，是|vi 一|mx 條|qns 掃雷艦|ng 上|f 的|usd 三七|ng 炮手|ng 。|。她|rn 呢|y ，|，是|vi 個(gè)|qng 來(lái)|vgn 姥姥|ng 家|ng 度假|(zhì)vgi 的|usd 中學(xué)生|ng 。|。那|rn 年|qt 初夏|t ，|，我們|rn 載|vgn 著|utz 海軍|ng 學(xué)校|ng 的|usd 學(xué)員|ng 沿|pg 漫長(zhǎng)|a 海岸線|ng 進(jìn)行|vf 了|utl 一|mx 次|qv 遠(yuǎn)航|vgx 。|。到達(dá)|vgn 了|utl 北方|s 著名|a 良港|ng 兼|vgn 避暑|vgp 勝地|ng ，|，在|pza 港|ng 外|f 和|pg 一|mx 條|qns 從|pg 南方|s 駛來(lái)|vgi 滿載|vgn 度假者|ng 的|usd 白色|ng 客輪|ng 并行|vgi 了|utl 一|mx 段|qns 時(shí)間|ng 。|。進(jìn)|vgn 港|ng 時(shí)|ng 我|rn 艦|ng 超越|vgn 了|utl 客輪|ng ，|，很|dd 親近|a 的|usd 擦|vgn 舷|ng 而|c 過(guò)|vgi 。|。興奮|a 的|usd 旅游者|ng 們|ki 紛紛|dr 從|pg 客艙|ng 出來(lái)|vgi ，|，擠|vgi 滿|a 邊舷|ng ，|，向|pg 我們|rn 揮|vgn 手|ng 呼喊|vgi ，|，我們|rn 也|dr 向|pg 他們|rn 揮|vgn 手|ng 致意|vgi 。|。

清華大學(xué)智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室最近對(duì)HuaYu完成了語(yǔ)塊庫(kù)人工標(biāo)注（200萬(wàn)漢字左右），并根據(jù)句子中動(dòng)詞類型和句子長(zhǎng)度等因素，從中隨機(jī)選取了20萬(wàn)詞，進(jìn)行語(yǔ)塊標(biāo)注，并進(jìn)一步完成了完整的句法樹(shù)標(biāo)注。

語(yǔ)塊標(biāo)注示例如下：

[從/p [他/rN 的/u 身上/s ] ，/， [我們/rN [看/v 到/vB] 了/u ] [一/m 位/qN ] [跨越/v [中國(guó)/nS {CS 近代/t 和/c 現(xiàn)代/t } 的/u [共產(chǎn)主義/n 戰(zhàn)士/n ] [光彩照人/iV 的/u 楷模/n ] 。/。]

句法樹(shù)標(biāo)注示例如下：

[zj [dj [pp 從/p [sp 他/rN 的/u 身上/s ] ] ，/， [dj 我們/rN [vp [vp [vp 看/v 到/vB ] 了/u ] [np [np [mp 一/m 位/qN ] [np [vp 跨越/v [tp 中國(guó)/nS [tp 近代/t 和/c 現(xiàn)代/t ] ] ] 的/u [np 共產(chǎn)主義/n 戰(zhàn)士/n ] ] ] [np 光彩照人/iV 的/u 楷模/n ] ] ] ] ] 。/。

5、山西大學(xué)

他們根據(jù)不同的需要，建立如下不同的語(yǔ)料庫(kù)，主要有：

漢語(yǔ)新聞?wù)Z料庫(kù)（1988年），250萬(wàn)字，山西大學(xué)，包括4部分：《人民日?qǐng)?bào)》：150萬(wàn)字，《北京科技報(bào)》：20萬(wàn)字；《電視新聞》（CCTV）：50萬(wàn)字；《當(dāng)代》（雜志）：30萬(wàn)字。

標(biāo)準(zhǔn)語(yǔ)料庫(kù)（2000年）：.以分詞規(guī)范和語(yǔ)委詞類標(biāo)記集為標(biāo)準(zhǔn)的綜合語(yǔ)料：70萬(wàn)字，其中10萬(wàn)字標(biāo)到了小類。

特定加工的語(yǔ)料：

-- 標(biāo)注中國(guó)地名：標(biāo)注了280萬(wàn)字的語(yǔ)料庫(kù)（含不同地名1793個(gè)，共出現(xiàn)11590次），建立中國(guó)地名庫(kù)，共收88026個(gè)地名，同時(shí)建立中國(guó)地名用字庫(kù)（3685個(gè)）和中國(guó)地名用詞庫(kù)（3917個(gè)）。地名識(shí)別正確率為86.7%，召回率為93.8%。

-- 標(biāo)注中國(guó)人名：標(biāo)注了300萬(wàn)字的語(yǔ)料庫(kù)，建立了姓氏人名庫(kù)，得出了姓氏用字頻率表（729個(gè)）和名字用字頻率表（3345個(gè)），中國(guó)人名識(shí)別的正確率為87.31%，召回率為95.23%。

-- 標(biāo)注西文譯名：標(biāo)注了250萬(wàn)字的語(yǔ)料庫(kù)，西文譯名資源來(lái)自《英語(yǔ)姓名譯名手冊(cè)》和《新英漢詞典》的《常見(jiàn)英語(yǔ)姓名表》，正確率為63%，召回率為98%。。

-- 標(biāo)注中文組織機(jī)構(gòu)名：標(biāo)注了50萬(wàn)字的語(yǔ)料庫(kù)，對(duì)組織機(jī)構(gòu)名的結(jié)構(gòu)進(jìn)行分析，使用基于規(guī)則的方法。

-- 標(biāo)注網(wǎng)上語(yǔ)料新詞語(yǔ)：標(biāo)注了150萬(wàn)字的語(yǔ)料庫(kù)。

為了標(biāo)注交集型歧義字段，建立了7.8萬(wàn)字的交集型歧義字段庫(kù)，已標(biāo)注510萬(wàn)字語(yǔ)料，分詞正確率達(dá)97%以上，同時(shí)證實(shí)了交集型歧義字段只有惟一可能的正確切分結(jié)果的偽歧義，占歧義字段總數(shù)的94%。

他們還建立多義組合型歧義字段庫(kù)：收錄了133條多義組合型歧義字段，比較全面的反映了組合型歧義字段的實(shí)際情況。

6、上海師范大學(xué)

該校建立了3000萬(wàn)字的生語(yǔ)料庫(kù)；根據(jù)北大的標(biāo)注規(guī)范建立了300萬(wàn)字的標(biāo)注語(yǔ)料庫(kù)。他們還建立了100萬(wàn)字《作家文摘》的標(biāo)注語(yǔ)料庫(kù)，選取1997年的《作家文摘》，題材包括傳記文學(xué)、歷史故事、記實(shí)文學(xué)、人物特寫(xiě)、小說(shuō)、散文、評(píng)論等，依靠手工進(jìn)行標(biāo)注，不僅完成了切詞和詞性標(biāo)注，還完成了短語(yǔ)結(jié)構(gòu)關(guān)系和結(jié)構(gòu)功能的標(biāo)注。加工層次深。

標(biāo)注示例：

[zw他/rp [db[zc期望/vz 著/ut]vp[db 打/vs [dz[sl一/mx 個(gè)/qi]mp[dz[zc 漂亮/ax 的/us]np[dz 大/ax 勝戰(zhàn)/ng]np]np]vp]vp]jp 。/w

其中的zw （主謂結(jié)構(gòu)）、db（動(dòng)賓結(jié)構(gòu)）、 dz（定中結(jié)構(gòu)）、sl（數(shù)量結(jié)構(gòu)）等都是結(jié)構(gòu)功能的標(biāo)記。

7、北京郵電大學(xué)的樹(shù)庫(kù)

他們?cè)诿绹?guó)LDC的漢語(yǔ)句法樹(shù)庫(kù)的基礎(chǔ)上進(jìn)行自動(dòng)獲取語(yǔ)法規(guī)則的研究。LDC的樹(shù)庫(kù)包含新華社1994到1998年的325篇文章，包含4185顆樹(shù)，10萬(wàn)個(gè)詞。他們對(duì)LDC樹(shù)庫(kù)進(jìn)行了改造，語(yǔ)法規(guī)則和分析模型參數(shù)都是通過(guò)LDC樹(shù)庫(kù)統(tǒng)計(jì)和訓(xùn)練得到。在抽取規(guī)則之前，進(jìn)行了如下的預(yù)處理工作：

刪除所有空的單詞；

去掉所有的非終結(jié)符的功能標(biāo)記；

去掉哪些只有一個(gè)孩子結(jié)點(diǎn)，且此孩子結(jié)點(diǎn)是非終結(jié)符的結(jié)點(diǎn)。

在此基礎(chǔ)上進(jìn)行規(guī)則的自動(dòng)獲取，采用改進(jìn)的CYK算法自動(dòng)獲取了3690條規(guī)則，形式如下：

parent_symbol|current_symbol -> RHS1….RHSn log_probability

比如：NP|NP -> NN NN NN -0.879602

8、哈爾濱工業(yè)大學(xué)機(jī)器翻譯實(shí)驗(yàn)室(MT-Lab)的漢語(yǔ)語(yǔ)料庫(kù)

容量約1GB。

9、香港城市理工大學(xué)的對(duì)比語(yǔ)料庫(kù)

該大學(xué)語(yǔ)言資訊科學(xué)研究中心建立了LIVAC(Linguistic variety in Chinese communities)語(yǔ)料庫(kù)，其宗旨在于研究使用中文的各個(gè)地區(qū)使用語(yǔ)言的異同。這個(gè)語(yǔ)料庫(kù)從1993年開(kāi)始策劃，在香港、澳門(mén)、上海、新加坡和臺(tái)灣五個(gè)不同的地區(qū)，每日選定一天的報(bào)紙摘錄其部分資料入庫(kù)，資料的內(nèi)容包括社論、第一版的全部新聞和文章、國(guó)際版、地方版、特寫(xiě)、評(píng)論等。每天收集的份量約兩萬(wàn)字，如果已經(jīng)達(dá)到兩萬(wàn)字，不太重要的資料就只好割愛(ài)。從1995年 7月到1997年6月的兩年內(nèi)，該語(yǔ)料庫(kù)所收集的資料總字?jǐn)?shù)為15,234,551字,經(jīng)過(guò)自動(dòng)切詞和人工校對(duì)之后總詞數(shù)約為8,869,900詞。

統(tǒng)計(jì)結(jié)果表明，中文各地區(qū)所使用的詞語(yǔ)，以雙音節(jié)為最多，其次是三音節(jié)，再其次是四音節(jié)，再再其次是單音節(jié)，但是，單音節(jié)詞語(yǔ)的使用頻度卻比較高，僅次于雙音節(jié)詞語(yǔ)的頻度，而且遠(yuǎn)遠(yuǎn)超出其他音節(jié)詞語(yǔ)頻度之總合。

統(tǒng)計(jì)結(jié)果還表明，香港和澳門(mén)的用詞相同率最高，香港與臺(tái)灣、香港與新加坡的用詞相同率居第二，香港與上海的用詞相同率最低。從歷史背景和社會(huì)情況來(lái)看，這個(gè)數(shù)字是可以接受的。因?yàn)橄愀叟c澳門(mén)距離很近，又都長(zhǎng)期被歐洲國(guó)家管制，香港與臺(tái)灣和新加坡的商務(wù)情況和社會(huì)結(jié)構(gòu)之間的相同點(diǎn)都比香港與上海之間多，這種情況，在詞語(yǔ)中必定會(huì)反映出來(lái)。

統(tǒng)計(jì)結(jié)果還表明，新加坡所用詞語(yǔ)比較少，而上海的特有詞語(yǔ)比較多，這似乎可以從新加坡華語(yǔ)并非當(dāng)?shù)厣鐣?huì)生活的唯一語(yǔ)言，而上海在中國(guó)的特殊地位和經(jīng)濟(jì)活動(dòng)非?；钴S有關(guān)。

10、臺(tái)灣的語(yǔ)料庫(kù)

臺(tái)灣建立了平衡語(yǔ)料庫(kù)（Sinica Corpus，中央研究院）和樹(shù)圖語(yǔ)料庫(kù)（Sinica Treebank，中央研究院）。兩個(gè)都是標(biāo)記語(yǔ)料庫(kù)，有一定加工深度。語(yǔ)料庫(kù)規(guī)模約500萬(wàn)字。

（四）口語(yǔ)語(yǔ)料庫(kù)

1、中國(guó)社會(huì)科學(xué)院語(yǔ)言所

他們建立了現(xiàn)代自然口語(yǔ)語(yǔ)料庫(kù)，包括一個(gè)旅館預(yù)定口語(yǔ)語(yǔ)料庫(kù)，搜集了2小時(shí)電話的對(duì)話，對(duì)話人數(shù)200人以上，進(jìn)行韻律切分和句法標(biāo)注，是wav文件，用SAMPA-C標(biāo)音，C-ToBI 2.0標(biāo)注韻律，并轉(zhuǎn)寫(xiě)成漢字文本；還包括一個(gè)無(wú)限制的自然對(duì)話語(yǔ)料庫(kù)：14.2小時(shí)的對(duì)話，對(duì)話人數(shù)22人，進(jìn)行韻律切分和句法標(biāo)注，是wav文件，用 SAMPA-C標(biāo)音，C-ToBI 2.0標(biāo)注韻律，并轉(zhuǎn)寫(xiě)成漢字文本。

語(yǔ)言所還正在建立現(xiàn)代漢語(yǔ)方言自然口語(yǔ)語(yǔ)料庫(kù)，設(shè)計(jì)了1500種引導(dǎo)話題和多種采集自然口語(yǔ)的交際環(huán)境，其中，采用話題引導(dǎo)的方式采集的話題語(yǔ)料占60%，在說(shuō)話人不知道的情況下現(xiàn)場(chǎng)采集的口語(yǔ)語(yǔ)料占40%。

2、中國(guó)科學(xué)院自動(dòng)化所

該所建立了一個(gè)旅游咨詢口語(yǔ)對(duì)話語(yǔ)料庫(kù)和一個(gè)旅館預(yù)定口語(yǔ)對(duì)話語(yǔ)料庫(kù)，可以用于限定領(lǐng)域的口語(yǔ)理解模型、口語(yǔ)對(duì)話管理模型、基于統(tǒng)計(jì)的口語(yǔ)翻譯技術(shù)等研究。

（五）雙語(yǔ)語(yǔ)料庫(kù)的建設(shè)

1、英漢雙語(yǔ)語(yǔ)料庫(kù)

北大計(jì)算語(yǔ)言學(xué)研究所的雙語(yǔ)語(yǔ)料庫(kù)，英漢對(duì)齊的句子已有5萬(wàn)多對(duì)，并開(kāi)發(fā)了相應(yīng)的對(duì)齊工具和雙語(yǔ)語(yǔ)料庫(kù)管理軟件。正在此基礎(chǔ)上做漢英對(duì)照短語(yǔ)庫(kù)，預(yù)計(jì)規(guī)模將達(dá)數(shù)十萬(wàn)條。

哈爾濱工業(yè)大學(xué)的英漢雙語(yǔ)語(yǔ)料庫(kù)：1998年有3萬(wàn)句子對(duì)，已經(jīng)進(jìn)行了詞性標(biāo)注，正在擴(kuò)充為40-50萬(wàn)句子對(duì)，在句子、短語(yǔ)、詞匯三級(jí)實(shí)現(xiàn)雙語(yǔ)對(duì)齊。

東北大學(xué)的英漢雙語(yǔ)語(yǔ)段庫(kù)：在雙語(yǔ)語(yǔ)料庫(kù)基礎(chǔ)上，建造雙語(yǔ)語(yǔ)段庫(kù)，1999年構(gòu)造了10萬(wàn)雙語(yǔ)語(yǔ)段庫(kù)，進(jìn)行了基于語(yǔ)段的英漢機(jī)器翻譯實(shí)驗(yàn)，正在以“ 機(jī)獲人校”的辦法建造100萬(wàn)雙語(yǔ)語(yǔ)段庫(kù)，擬擴(kuò)充到500萬(wàn)雙語(yǔ)語(yǔ)段庫(kù)，進(jìn)一步建造具有1000萬(wàn)語(yǔ)段的大容量網(wǎng)上英漢語(yǔ)段電子詞典，研究電子詞典中搭配短語(yǔ)獲取算法，建造大容量網(wǎng)上電子英漢搭配詞典。

外語(yǔ)教學(xué)與研究出版社：

-- 英漢文學(xué)作品語(yǔ)料庫(kù)

-- 馮友蘭《中國(guó)哲學(xué)史》漢英對(duì)照語(yǔ)料庫(kù)

-- 李約瑟(Joself Needham)《中國(guó)科學(xué)技術(shù)史》英漢對(duì)照語(yǔ)料庫(kù)

國(guó)家語(yǔ)言文字工作委員會(huì)語(yǔ)言文字應(yīng)用研究所建立了英漢雙語(yǔ)語(yǔ)料庫(kù)，其中包括一個(gè)計(jì)算機(jī)專業(yè)的雙語(yǔ)語(yǔ)料庫(kù)和一個(gè)柏拉圖(Plato)哲學(xué)名著《理想國(guó)》（Politeia）的雙語(yǔ)語(yǔ)料庫(kù)。在這些雙語(yǔ)語(yǔ)料庫(kù)上，他們進(jìn)行了漢字極限熵的測(cè)定和雙語(yǔ)對(duì)齊的研究。

中國(guó)科學(xué)院軟件研究所的英漢雙語(yǔ)語(yǔ)料庫(kù)：進(jìn)行雙語(yǔ)對(duì)齊算法研究?，F(xiàn)有15萬(wàn)對(duì)英漢雙語(yǔ)對(duì)齊句子庫(kù)，已經(jīng)切分和標(biāo)注。

中國(guó)科學(xué)院自動(dòng)化研究所的英漢雙語(yǔ)語(yǔ)料庫(kù)：購(gòu)買 LDC香港新聞?dòng)h雙語(yǔ)對(duì)齊語(yǔ)料36294段以及香港法律英漢雙語(yǔ)對(duì)齊語(yǔ)料31萬(wàn)句子對(duì)，并從英漢雙解詞典中摘取例句25000個(gè)句子對(duì)。

2、日漢對(duì)譯語(yǔ)料庫(kù)

北京外國(guó)語(yǔ)大學(xué)的北京日本學(xué)研究中心建立漢語(yǔ)和日語(yǔ)并行語(yǔ)料庫(kù)，內(nèi)容以中日文學(xué)名著為主，兼收劇本、散文、政論文，原文和譯文全文收錄，部分名著收入多個(gè)譯本。2000萬(wàn)字。進(jìn)行自動(dòng)切分和詞性標(biāo)注，部分文本進(jìn)行語(yǔ)法和語(yǔ)義標(biāo)注，采用SGML國(guó)際標(biāo)準(zhǔn)。

3、德漢雙語(yǔ)語(yǔ)料庫(kù)

山東海洋大學(xué)語(yǔ)言文學(xué)院研制的《蝴蝶》（王蒙小說(shuō)）德漢對(duì)照語(yǔ)料庫(kù)，用于德漢翻譯對(duì)比研究，完全采用手工方式排比語(yǔ)料，主要比較了漢語(yǔ)的“了”與德語(yǔ)動(dòng)詞完成式的關(guān)系。規(guī)模很小。

4、漢日英分類熟語(yǔ)料庫(kù)

復(fù)旦大學(xué)計(jì)算機(jī)系建立了容量為1GB漢日英分類熟語(yǔ)料庫(kù)，包含數(shù)千個(gè)類別，數(shù)十萬(wàn)篇文章。

（六）少數(shù)民族語(yǔ)言語(yǔ)料庫(kù)

1、維吾爾語(yǔ)語(yǔ)料庫(kù)

新疆師范大學(xué)建立了200萬(wàn)詞的維吾爾語(yǔ)語(yǔ)料庫(kù)，擬發(fā)展到300萬(wàn)詞。

2藏語(yǔ)語(yǔ)料庫(kù)

中國(guó)社會(huì)科學(xué)院民族研究所建立了500萬(wàn)藏語(yǔ)字符的藏語(yǔ)語(yǔ)料庫(kù)，擬進(jìn)行切分和標(biāo)注的研究。

3、蒙古語(yǔ)語(yǔ)料庫(kù)

內(nèi)蒙古大學(xué)建立了蒙古語(yǔ)語(yǔ)料庫(kù)，進(jìn)行了初步的切分和標(biāo)注。

三、語(yǔ)料庫(kù)的加工技術(shù)

（一）自動(dòng)切分

在自動(dòng)切分方面，提出的切分歧義技術(shù)有：“松弛法”（Fan C.K., Tsai W.H. 1988），“擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)”（黃祥喜 1989），“短語(yǔ)結(jié)構(gòu)文法”（梁南元 1990；姚天順、張桂平等 1990；Yeh C.L., Lee H.J. 1991；韓世欣、王開(kāi)鑄 1992），“專家系統(tǒng)”方法（徐輝、何克抗等 1991），“神經(jīng)網(wǎng)絡(luò)”方法（徐秉錚、詹劍等，1993），“有限狀態(tài)自動(dòng)機(jī)”方法（Sproat R., Shih C.L et al. 1996），“隱Markov模型”（Lai B.Y., Sun M.S. et al 1997；沈達(dá)陽(yáng)、孫茂松等 1997a；孫茂松、左正平等1999），“Brill式轉(zhuǎn)換法”（Palmer D.D. 1997）等。

此外還研究了人名識(shí)別技術(shù)、地名識(shí)別技術(shù)、機(jī)構(gòu)名識(shí)別技術(shù)、新詞語(yǔ)識(shí)別技術(shù)。

（二）自動(dòng)標(biāo)注

在自動(dòng)標(biāo)注方面，基于規(guī)則的方法主要解決標(biāo)注中的兼類詞問(wèn)題；基于統(tǒng)計(jì)的方法主要有CLAWS算法、VOLSUNGA算法、HMM（隱馬爾可夫模型）、TBED法（Transformation-Based Error-Driven，Eric Brill于1993年提出的方法）

（三）自動(dòng)短語(yǔ)結(jié)構(gòu)標(biāo)注

短語(yǔ)結(jié)構(gòu)標(biāo)注的結(jié)果，可以用短語(yǔ)結(jié)構(gòu)語(yǔ)法樹(shù) (P-Tree)來(lái)表示，也可以用依存樹(shù)（D-Tree）來(lái)表示，有的系統(tǒng)采用了從P-Tree到D-Tree的轉(zhuǎn)換技術(shù)，有的系統(tǒng)采用CYK算法進(jìn)行短語(yǔ)結(jié)構(gòu)分析。

（四）雙語(yǔ)對(duì)齊技術(shù)

主要采用基于長(zhǎng)度的方法、基于詞典的方法以及把這兩種方法結(jié)合起來(lái)的混合方法。

四、語(yǔ)料庫(kù)建設(shè)中的若干問(wèn)題

（一）語(yǔ)料庫(kù)的規(guī)范與標(biāo)準(zhǔn)

我國(guó)中文信息界從1988年開(kāi)始研制《信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范》的國(guó)家標(biāo)準(zhǔn)，根據(jù)科學(xué)性、嚴(yán)謹(jǐn)性、穩(wěn)定性、通用性、實(shí)用性和完整性（規(guī)范對(duì)現(xiàn)代漢語(yǔ)語(yǔ)言現(xiàn)象的覆蓋率應(yīng)該達(dá)到99%以上），經(jīng)過(guò)三年時(shí)間的研究，七易其稿，于1992年批準(zhǔn)為國(guó)家標(biāo)準(zhǔn)，標(biāo)準(zhǔn)號(hào)為GB/T13715-92。這個(gè)規(guī)范的主體結(jié)構(gòu)分為主題內(nèi)容與適用范圍、引用標(biāo)準(zhǔn)、術(shù)語(yǔ)、概述和具體說(shuō)明五個(gè)部分。由于漢語(yǔ)中語(yǔ)素、單詞和詞組的界限不夠清晰，分詞規(guī)范中除了基本上采用了《暫擬漢語(yǔ)教學(xué)語(yǔ)法系統(tǒng)》中詞的定義，把詞定義為“最小的獨(dú)立運(yùn)用的語(yǔ)言單位”之外，還特別地提出了“分詞單位”的概念，把“分詞單位”定義為“漢語(yǔ)信息處理使用的具有確定的語(yǔ)義或語(yǔ)法功能的基本單位”，并且指出，分詞單位“包括本規(guī)范限定的詞和詞組”。“分詞單位”的提出，巧妙地避開(kāi)了關(guān)于詞的定義的爭(zhēng)論，協(xié)調(diào)了當(dāng)時(shí)學(xué)術(shù)界的矛盾。

我國(guó)還研制了《信息處理用現(xiàn)代漢語(yǔ)常用詞表》。由于漢語(yǔ)語(yǔ)言現(xiàn)象的極端復(fù)雜性，幾乎每條規(guī)則都會(huì)出現(xiàn)例外，因此，分詞規(guī)范提出了“結(jié)合緊密，使用穩(wěn)定”的原則作為判定一個(gè)符號(hào)串是否可以作為分詞單位的準(zhǔn)則。但是，這個(gè)原則不夠具體，實(shí)行起來(lái)往往見(jiàn)仁見(jiàn)智，從而造成不同系統(tǒng)中分詞單位的不一致。所以，后來(lái)有的學(xué)者建議在規(guī)范之外，還應(yīng)該根據(jù)規(guī)范提出一個(gè)詞表來(lái)作進(jìn)一步具體的說(shuō)明，以利規(guī)范的實(shí)施。采用“規(guī)范+詞表”的策略，這是很有遠(yuǎn)見(jiàn)的做法。 1994年，該規(guī)范的主要制定者劉源教授等人根據(jù)現(xiàn)代漢語(yǔ)詞頻統(tǒng)計(jì)的結(jié)果，公布了一個(gè)《信息處理用現(xiàn)代漢語(yǔ)常用詞表》，收詞43570條，可惜，這個(gè)詞表對(duì)于規(guī)范中的一些難點(diǎn)，仍然沒(méi)有作出很好的處理，權(quán)威性不夠。

臺(tái)灣研制了一個(gè)《資訊處理用中文分詞規(guī)范》。臺(tái)灣的計(jì)算語(yǔ)言學(xué)會(huì)在1995年提出了《資訊處理用中文分詞規(guī)范》，這個(gè)規(guī)范提出三條基本原則：1.分詞單位必須符合語(yǔ)言學(xué)理論的要求；2.在信息處理上確實(shí)可行；3.能確保真實(shí)文本處理的一致性。另外還制定了一些輔助原則（合并原則、切分原則），以決定合并還是切分。該規(guī)范按照分詞的難易程度，把分詞規(guī)范分為信、達(dá)、雅三個(gè)不同的等級(jí)。信級(jí)標(biāo)準(zhǔn)是基本資料交換的標(biāo)準(zhǔn)；達(dá)級(jí)標(biāo)準(zhǔn)是機(jī)器翻譯、情報(bào)檢索等自然語(yǔ)言處理的標(biāo)準(zhǔn)；雅級(jí)標(biāo)準(zhǔn)則是分詞的理想境界。這種分等級(jí)的做法有利于處理難易程度不同的分詞作業(yè)。

我國(guó)還研制了《信息處理用現(xiàn)代漢語(yǔ)規(guī)范詞表》。國(guó)家語(yǔ)言文字工作委員會(huì)在1995年提出研制《信息處理用現(xiàn)代漢語(yǔ)規(guī)范詞表》的任務(wù)，目的在于從政府的角度，研制規(guī)范的現(xiàn)代漢語(yǔ)通用詞表，以便作為大家遵循的、統(tǒng)一的通用詞表，詞表的規(guī)模大約6萬(wàn)至8萬(wàn)條，這項(xiàng)工作還未完成?，F(xiàn)代漢語(yǔ)的詞匯是一個(gè)復(fù)雜的體系，除了通用詞之外，還有術(shù)語(yǔ)、方言詞語(yǔ)、文言詞語(yǔ)、專名詞語(yǔ)（包括人名、地名、機(jī)構(gòu)名等）、各種熟語(yǔ)（包括成語(yǔ)、慣用語(yǔ)、歇后語(yǔ)、諺語(yǔ)、格言等）。詞語(yǔ)是不斷發(fā)展變化的，隨著社會(huì)的發(fā)展，還會(huì)出現(xiàn)大量的新詞新語(yǔ)。信息處理會(huì)涉及到上述各種詞語(yǔ)，因此，詞表的制定，除了制定通用詞表之外，還應(yīng)該制訂不同專業(yè)的術(shù)語(yǔ)詞表、方言詞表、文言詞表、專名詞表、熟語(yǔ)詞表、新詞語(yǔ)詞表等。這是一項(xiàng)龐大的工程。這些詞表的制訂和規(guī)范化，對(duì)于我國(guó)計(jì)算語(yǔ)言學(xué)的進(jìn)一步發(fā)展有著深遠(yuǎn)的影響。

我國(guó)還研制了《信息處理用現(xiàn)代漢語(yǔ)詞類標(biāo)記集規(guī)范》：該規(guī)范由教育部語(yǔ)言文字應(yīng)用研究所計(jì)算語(yǔ)言學(xué)研究室研制，包括 18 個(gè)大類。信息處理用現(xiàn)代漢語(yǔ)詞類標(biāo)記集規(guī)范制訂的主要原則有三個(gè)：① 語(yǔ)法功能原則。語(yǔ)法功能是詞類劃分的主要依據(jù)。詞的意義不作為劃分詞類的主要依據(jù)，但有時(shí)也起某些參考作用。② 允許有兼類。根據(jù)各種統(tǒng)計(jì)研究，現(xiàn)代漢語(yǔ)的某些詞具有多種語(yǔ)法功能，但這多種功能的分布概率不同。在信息處理用現(xiàn)代漢語(yǔ)詞類體系中，各詞類的確立要根據(jù)詞的主要語(yǔ)法功能。 ③詞類標(biāo)記集中的大類應(yīng)能覆蓋現(xiàn)代漢語(yǔ)的全部詞。這個(gè)規(guī)范正在考慮提升為國(guó)家標(biāo)準(zhǔn)。

我國(guó)某些學(xué)者關(guān)注到國(guó)際上關(guān)于通用置標(biāo)語(yǔ)言的進(jìn)展。由計(jì)算機(jī)和人文科學(xué)學(xué)會(huì)（ACH）、計(jì)算語(yǔ)言學(xué)學(xué)會(huì)(ACL)和文學(xué)與語(yǔ)言計(jì)算學(xué)會(huì)(ALLC) 聯(lián)合提出了TEI（Text Encoding Initiative，文本編碼倡議，1998年），其目標(biāo)是為電子文本制訂一套統(tǒng)一的編碼規(guī)范，以推動(dòng)語(yǔ)料存儲(chǔ)格式的標(biāo)準(zhǔn)化，實(shí)現(xiàn)語(yǔ)料的交換和共享。

由歐洲MULTEXT、EAGLES和VASSAR/CNRS collaboration聯(lián)合提出CES（Corpus Encoding Standard，語(yǔ)料庫(kù)編碼標(biāo)準(zhǔn)），可廣泛應(yīng)用于語(yǔ)料庫(kù)的研制與開(kāi)發(fā)。

1986年ISO正式發(fā)布了國(guó)際標(biāo)準(zhǔn)SGML(Standard Generalized Markup Language，標(biāo)準(zhǔn)通用置標(biāo)語(yǔ)言)，標(biāo)準(zhǔn)號(hào)是ISO8879-1986.我國(guó)于1995年也把SGML語(yǔ)言作為國(guó)家標(biāo)準(zhǔn)，標(biāo)準(zhǔn)號(hào)為GB 14814。馮志偉在《當(dāng)代語(yǔ)言學(xué)》(1998年，第4期)的《標(biāo)準(zhǔn)通用置標(biāo)語(yǔ)言SGML及其在自然語(yǔ)言處理中的應(yīng)用》一文詳細(xì)介紹過(guò)SGML語(yǔ)言。

XML(eXtensible Markup Language，可擴(kuò)充置標(biāo)語(yǔ)言)是SGML的一個(gè)子集，被廣泛地用做語(yǔ)料庫(kù)標(biāo)注的元語(yǔ)言，通過(guò) DTD(Document Type Definition，文件類型定義)和Schema來(lái)規(guī)范XML文件，從而使表現(xiàn)與內(nèi)容分離，規(guī)范與實(shí)現(xiàn)分離，具有良好的擴(kuò)縮性。

我國(guó)語(yǔ)料庫(kù)的建設(shè)將一定會(huì)采用通用置標(biāo)語(yǔ)言作為描述語(yǔ)料庫(kù)的元語(yǔ)言。

（二）語(yǔ)料庫(kù)的資源共享

語(yǔ)料庫(kù)的資源共享的方式有如下幾種：作為產(chǎn)品出售；實(shí)行會(huì)員制；授予使用許可權(quán)；給非贏利目的的學(xué)術(shù)結(jié)構(gòu)提供無(wú)償使用。

（三）語(yǔ)料庫(kù)的知識(shí)產(chǎn)權(quán)

隨著語(yǔ)料庫(kù)的廣泛使用，語(yǔ)料庫(kù)的知識(shí)產(chǎn)權(quán)問(wèn)題越來(lái)越尖銳，以正式出版物為資源的語(yǔ)料庫(kù)面臨版權(quán)的問(wèn)題。建議政府有關(guān)部門(mén)建立關(guān)于語(yǔ)料庫(kù)資源的版權(quán)法規(guī)，建議中國(guó)中文信息學(xué)會(huì)出面協(xié)調(diào)。

（四）語(yǔ)料庫(kù)加工中的統(tǒng)計(jì)垃圾

由于電子文本的普遍使用，語(yǔ)料資源的獲取變得越來(lái)越容易，我國(guó)大規(guī)模的真實(shí)文本語(yǔ)料庫(kù)其規(guī)模已經(jīng)達(dá)到5億字。美國(guó)計(jì)算語(yǔ)言學(xué)會(huì)的ACL/DCI 數(shù)據(jù)采集計(jì)劃指出，如果以文本形式存儲(chǔ)語(yǔ)料，語(yǔ)料庫(kù)的容量一般可以為1億詞次以上，將來(lái)可以達(dá)到萬(wàn)億詞次的數(shù)量級(jí)。隨著語(yǔ)料庫(kù)容量的不斷增大，語(yǔ)料統(tǒng)計(jì)中的數(shù)據(jù)稀疏現(xiàn)象會(huì)越來(lái)越嚴(yán)重。宋柔在統(tǒng)計(jì)語(yǔ)料庫(kù)中的詞語(yǔ)接續(xù)對(duì)時(shí)發(fā)現(xiàn)：“隨著語(yǔ)料庫(kù)規(guī)模的增大，新增加的接續(xù)對(duì)中的垃圾逐漸會(huì)占大部分甚至絕大部分。垃圾主要分布在統(tǒng)計(jì)到的低頻度接續(xù)對(duì)中，主要來(lái)源是分詞中專名識(shí)別錯(cuò)誤。”應(yīng)該看到，在統(tǒng)計(jì)垃圾中蘊(yùn)藏著許多正在萌芽的新的語(yǔ)言現(xiàn)象，如“噴塑、蒜農(nóng)、危改、市話、高檢”等低頻度的新詞語(yǔ)，由于在詞典中沒(méi)有存儲(chǔ)，都可以在統(tǒng)計(jì)垃圾中找到。如何真確地對(duì)待統(tǒng)計(jì)垃圾，避免統(tǒng)計(jì)中的數(shù)據(jù)稀疏現(xiàn)象，變垃圾為有用的語(yǔ)言資源，是大規(guī)模真實(shí)文本處理的一個(gè)新課題。

參考文獻(xiàn)：

1、J. Sinclair, Reflections on computer corpora in English language research [M], 1982.

2、北京語(yǔ)言學(xué)院語(yǔ)言教學(xué)研究所，漢語(yǔ)詞匯的統(tǒng)計(jì)與分析[M]，外語(yǔ)教學(xué)與研究出版社，1985年。

3、馮志偉，計(jì)算語(yǔ)言學(xué)基礎(chǔ)[M]，商務(wù)印書(shū)館，2001年。

4、馮志偉，語(yǔ)料庫(kù)語(yǔ)言學(xué)與機(jī)器翻譯[M]，《信息網(wǎng)絡(luò)時(shí)代與日本研究》，山東大學(xué)出版社，1999年。

5、劉開(kāi)瑛，中文文本自動(dòng)分詞和標(biāo)注[M]，商務(wù)印書(shū)館，2000年。

6、孫茂松等，高頻最大交集型歧義切分字段在漢語(yǔ)自動(dòng)切分中的作用[J]，中文信息學(xué)報(bào)，第13卷，第1期，1999年。

7、俞士汶、朱學(xué)鋒、段慧明，大規(guī)?，F(xiàn)代漢語(yǔ)標(biāo)注語(yǔ)料庫(kù)的加工規(guī)范[J]，中文信息學(xué)報(bào)，第14卷，第6期，2000年。

国产成人v爽在线免播放观看,日韩欧美色,久久99国产精品久久99软件,亚洲综合色网站,国产欧美日韩中文久久,色99在线,亚洲伦理一区二区

中國(guó)語(yǔ)料庫(kù)研究的歷史與現(xiàn)狀

相關(guān)文章

熱門(mén)文章