學術(shù)論文復制檢測的研究進展及新方法探討論文
隨著互聯(lián)網(wǎng)、數(shù)字圖書館和數(shù)字化分布式媒體的發(fā)展,海量信息以各種形態(tài)充斥著我們的日常生活。豐富的數(shù)字化資源給人們提供便利的同時,也給復制抄襲行為提供了滋生的溫床。尤其是近幾年來,學術(shù)造假、論文剽竊等一系列學術(shù)不端事件屢見不鮮。為此,通過設(shè)計并實現(xiàn)有效的抄襲檢測系統(tǒng),從技術(shù)層面上防止學術(shù)抄襲、抵制學術(shù)造假具有重要的理論意義和使用價值。以下是學習啦小編為大家精心準備的:學術(shù)論文復制檢測的研究進展及新方法探討相關(guān)論文。內(nèi)容僅供參考,歡迎閱讀!
學術(shù)論文復制檢測的研究進展及新方法探討全文如下:
[摘要] 綜述國內(nèi)外學術(shù)論文復制檢測的研究現(xiàn)狀,針對存在的問題提出以后研究的新思路:構(gòu)建某一學科領(lǐng)域?qū)W術(shù)論文語料庫;以信息論為工具,針對某學科領(lǐng)域建立基于學術(shù)論文語料庫的統(tǒng)計語言模型;結(jié)合學術(shù)論文抄襲剽竊的特點,通過賦予描述資源對象語義信息的不同元數(shù)據(jù)項以不同的權(quán)函數(shù),設(shè)計相似度算法;使用Lemur工具箱,在標準的TREC文檔集上對模型和算法進行檢驗;與Turnitin偵探剽竊系統(tǒng)進行實驗對比,評價該模型和算法的有效率和效果。
[關(guān)鍵詞] 學術(shù)論文 復制檢測 抄襲剽竊檢測 統(tǒng)計語言模型 文本相似度算法
自從方舟子的“新語絲”使原本長期存在于學術(shù)界的學術(shù)不端暴露出來之后,學術(shù)論文抄襲剽竊引起社會的廣泛關(guān)注。抄襲剽竊的表現(xiàn)形式多種多樣:有些只是在語言文字的表達形式上做手腳,換成同義詞或顛倒語句的表達順序,在文章框架、主要觀點和主要論據(jù)上卻沒有大的變化;有些直接大段地“引用”別人的內(nèi)容;有些綜合運用多種手段,將多篇別人的文章拼湊而成自己的;有些“學術(shù)高手”直接拿國外的論文翻譯成中文發(fā)表,等等。抄襲和剽竊“手段”的越來越“高明”,給抄襲剽竊檢測帶來很大困難。抄襲檢測又叫復制檢測、剽竊檢測或副本檢測,根據(jù)檢測對象性質(zhì)不同可分為圖像、聲音和文本復制檢測。學術(shù)論文抄襲檢測是文本復制檢測的一種,歸根到底是判斷兩篇學術(shù)論文的相似程度。“召回率”和“精準率”是判斷檢測算法好壞的兩個重要指標。為了進一步提高學術(shù)論文復制檢測判斷的準確率,針對學術(shù)論文的文檔相似度算法的改進和創(chuàng)新研究變得尤為重要。
1 國內(nèi)外研究現(xiàn)狀及存在的問題
1.1 國外研究現(xiàn)狀
國外具有代表性的文檔相似度算法主要有以下幾種:①Manber提出一個sif工具,其“近似指紋”是用基于字符串匹配的方法來度量文件之間的相似性;②Brin等在“數(shù)字圖書館”工程中首次提出文本復制檢測機制COPS(copy protection system)系統(tǒng)與相應(yīng)算法,奠定了論文抄襲檢測系統(tǒng)的基礎(chǔ);③Garcia-Molin提出SCAM(Stanford copy analysis method)原型,改進了COPS系統(tǒng),用于發(fā)現(xiàn)知識產(chǎn)權(quán)沖突。他使用基于詞頻統(tǒng)計的方法來度量文本相似性,后來把檢測范圍從單個注冊數(shù)據(jù)庫擴展到分布式數(shù)據(jù)庫上以及在Web上探測文本復制的方法;④貝爾實驗室的Heintze開發(fā)了KOALA系統(tǒng)用于剽竊檢測,采用與sif基本相同的算法;⑤si和Leong等人建立的CHEC系統(tǒng)首次把文檔結(jié)構(gòu)信息引入到文本相似性度量中;⑥Stein提出一種方法,這種方法能產(chǎn)生一種“指紋”,在某種程度上能有效防止修改;⑦MeyerzuEissen等提出通過根據(jù)寫作風格上的變化來分析單篇文檔,從而決定是否有潛在抄襲;⑧美國學校首先引入Tumitin偵探剽竊數(shù)據(jù)庫,用于防止論文抄襲,此外還有其他類似軟件系統(tǒng)用于進行文檔相似度分析。當然不同的檢測系統(tǒng)其相似度算法的精度也不盡相同。
1.2 國內(nèi)研究現(xiàn)狀
國內(nèi)關(guān)于論文抄襲剽竊檢測方面已有一些研究:①張斯�通過對中文文本進行自動分詞,然后計算它們的相似度,從而判別文本是否抄襲,其對應(yīng)裝置包括:樣本輸入裝置、樣本數(shù)據(jù)庫、自動分句分詞裝置、分詞數(shù)據(jù)庫、預(yù)處理裝置、特征詞數(shù)據(jù)庫、相似判別裝置、判別結(jié)果輸出裝置和控制處理裝置等。②鮑軍鵬通過文本的結(jié)構(gòu)信息和語義信息提取文本特征,是通過運用文本剽竊判定模塊中設(shè)定的探針法,估計待檢測文本特征和特征庫中的文本特征的最大共同語義,并給出文本雷同度量,從而判別文本是否抄襲。③沈陽是通過先找到存儲空間內(nèi)的格式遺留,再將這些遺留格式附近文檔的關(guān)鍵詞或/和句子或/和段落與文獻庫中的文獻內(nèi)容進行比較,從而減少被檢測文檔的數(shù)據(jù)量,加快了反剽竊或轉(zhuǎn)載文檔檢測速度。④張履平通過對已植入水印的文章進行特征擷取,根據(jù)所取得的詞匯輸入搜尋引擎以搜尋相關(guān)可疑文章;根據(jù)與原文比對結(jié)果取得的句子進行水印解析;將所取得的水印信息與原來的水印比對,從而判斷是否為剽竊。⑤金博等則對基于篇章結(jié)構(gòu)相似度的復制檢測算法有一些研究。
1.3 存在的問題
事實上,由于剽竊形式的多樣性和隱蔽性、語法和句法的復雜性等,目前主要采用的“數(shù)字指紋”和詞頻統(tǒng)計兩大類抄襲識別技術(shù)已經(jīng)不能滿足實際的剽竊檢測需求,會造成很多漏檢和誤檢,其“召回率”和“精準率”都有待提高。歸根到底是因為其檢索模型有待突破,算法亟待改進或需創(chuàng)造全新的算法來針對學術(shù)論文抄襲剽竊檢測的實際。如何把握并充分利用學術(shù)論文的結(jié)構(gòu)和語言特征,提供具有針對性的檢索模型和相似度算法及其實現(xiàn)系統(tǒng),對能否在異構(gòu)的分布式學術(shù)論文資源系統(tǒng)中,對抄襲剽竊檢測進行更精確的判斷至關(guān)重要。
2 學術(shù)論文復制檢測研究的新思路
針對以上問題,筆者提出以下學術(shù)論文復制檢測研究的新思路:①建立有針對性的學術(shù)論文語料庫;②通過對語料庫的深層加工、統(tǒng)計和學習,建立統(tǒng)計語言模型;③充分利用學術(shù)論文著錄項目自身的特點,通過將文檔結(jié)構(gòu)化,賦予元數(shù)據(jù)項加權(quán)系數(shù),運用卷積計算學術(shù)論文的相似度;④利用支持網(wǎng)絡(luò)語言的JAVA編程實現(xiàn)相似度算法;⑤通過將待檢測論文與數(shù)據(jù)庫中已有文獻對比,計算其相似度,當相似度超過某一閾值時,則判斷該論文有抄襲的可能,如圖1所示:
3 具體方法及步驟
3.1 建立某一學科專業(yè)的學術(shù)論文語料庫
新一代的兆億級的大規(guī)模語料庫可以作為語言模型的訓練和測試手段,用以評價一個語言模型的質(zhì)量。本文建立的語料庫中存放的是在學術(shù)論文語言的實際使用中真實出現(xiàn)過的學術(shù)論文語言材料;是以電子計算機為載體,承載學術(shù)資源語言知識的基礎(chǔ)資源;通過對真實語料進行分析和處理等加工,使之成為本文的學術(shù)論文抄襲檢測模型和算法的訓練與測試手段。
利用豐富的學術(shù)資源數(shù)據(jù)庫,如Dialog、SCI、EI、INSPE、IEEE、Science Direct、EBSCO、PQDD、SPRINGERLINK、KLUWER、Science online、Medline、CNKI、中文科技期刊全文數(shù)據(jù)庫、萬方數(shù)據(jù)科技信息子系統(tǒng)、萬方數(shù)據(jù)商業(yè)信息子系統(tǒng)、七國兩組織的專利數(shù)據(jù)庫、國內(nèi)外專利數(shù)據(jù)庫等異構(gòu)的分布資源,通過信息檢索,從某一學科專業(yè)著手,構(gòu)建某一學科專業(yè)領(lǐng)域的學術(shù)論文語料庫。
3.2 以信息論為工具,創(chuàng)建統(tǒng)計語言模型用于學術(shù)論文檢索
數(shù)學是解決信息檢索和自然語言處理的最好工具。其實早在幾十年前,數(shù)學家兼信息論專家香農(nóng)(Claude Shannon)就提出了用數(shù)學方法處理自然語言的想法。語音和語言處理大師賈里尼克(Fred Je-
linek)首先成功利用數(shù)學方法解決了自然語言處理問題。統(tǒng)計語言模型(即基于統(tǒng)計的語言模型)通常是概率模型,計算機借助于統(tǒng)計語言模型的概率參數(shù),可以估計出自然語言中每個句子出現(xiàn)的可能性,而不是簡單地判斷該句子是否符合文法。統(tǒng)計語言模型以概率頒布的形式描述了任意語句(字符串)s屬于某種語言集合的可能性,需要對任意的語句s都給出一個概率值,例如:P(他/認真/學習)=0.02。本文充分利用學術(shù)論文不同于報紙新聞?wù)撐幕蚱渌愋臀臋n的語言特點,以建立的學術(shù)論文語料為訓練和測試基礎(chǔ),提出新的基于學術(shù)論文的統(tǒng)計語言模型作為針對學術(shù)論文抄襲剽竊檢測算法的檢索語言模型。具體做法為:以信息論為工具,把握學術(shù)論文的語言特點,通過對以上所建立的學科專業(yè)語料庫進行深層加工、統(tǒng)計和學習,獲取大規(guī)模真實學術(shù)論文語料中的語言知識,建立基于學術(shù)論文語料庫的統(tǒng)計語言模型;通過實驗,與其他文本信息檢索模型進行比較,論證其有效性。
3.3 利用學術(shù)論文中描述資源對象語義信息的元數(shù)據(jù)結(jié)構(gòu),計算文檔相似度
充分利用正式出版的學術(shù)論文的結(jié)構(gòu)特點,根據(jù)學術(shù)論文中標引出的K個描述資源對象語義信息的元數(shù)據(jù)(Di,i=1,2…k),將學術(shù)論文結(jié)構(gòu)化;然后利用已有的基于學術(shù)論文語料庫的統(tǒng)計語言模型,將待比較的論文的各相同元數(shù)據(jù)Di(i=1,2…k)部分進行比對得相似度si,再根據(jù)元數(shù)據(jù)對論文的重要程度給定第i個元數(shù)據(jù)項相似度權(quán)函數(shù)wi;則整篇學術(shù)論文總體的相似度為Sd=∑Wi*Si。
具體算法舉例如下:
將待檢測的學術(shù)論文的元數(shù)據(jù)如題名Til、關(guān)鍵詞Kyl、摘要Abl、正文.Tel、參考文獻Rel等元數(shù)據(jù)字段抽取出來,與語料庫中已有論文的相應(yīng)元數(shù)據(jù)字段內(nèi)容題名Ti2、關(guān)鍵詞Ky2、摘要Ab2、正文Tx2、參考文獻Re2進行相似度計算。計算時,在篇名字段前給以0.25,0.4,0.15,0.1和0.1的加權(quán)系數(shù)。建立的統(tǒng)計語言模型計算待測論文和語料庫中已出版的論文j同一元數(shù)據(jù)字段的內(nèi)容相似程度,記為:Sim_Tij,sim―Kyj,Sim_Abj,Sire Tej,Sim_Rej,卷積后得整篇論文與語料庫中某篇論文j的相似程度值計算公式為:Sinai―larity_paper_j=0.25×Sim_Tij+0.4×Sim_Kyj+0.15×Sim_Abj+0.1×Sim_Txj+0.1×Sim_Rej;再計算與待檢測論文最相似的那個最大相似度Max_Similarity=Max{Simflarity_paper_j};如果Max_Similarity大于設(shè)定的閥值1(如40%),則判斷為疑似抄襲,這樣的論文需要審稿專家仔細認真審理,如果Max_Similarity大于設(shè)定的閥值2(比設(shè)定的閥值1大,如80%),這樣的論文極有可能存在抄襲,需要審稿專家特別注意。在計算相似度值后,計算機系統(tǒng)記錄下相似度高于設(shè)定閥值的抄襲和被抄襲的學術(shù)論文來源、相似度值、及其各元數(shù)據(jù)項信息(包括作者信息)。以上各元數(shù)據(jù)項相似度計算過程中,加權(quán)系數(shù)可以根據(jù)需要做適當調(diào)整為其他數(shù)值,但系數(shù)總和為1。
3.4 推廣使用
通過對某一學科專業(yè)的研究,進一步拓展到其他學科領(lǐng)域,從而最終實現(xiàn)在異構(gòu)的分布式學術(shù)論文資源系統(tǒng)中,對各個學科領(lǐng)域的學術(shù)論文抄襲剽竊進行跨平臺檢測。
4 研究展望及難點、解決辦法
今后的研究主要是將以上思想和方法步驟通過實驗進行論證。通過JAVA編程實現(xiàn)算法,同時能實現(xiàn)對于空間地址分布和數(shù)據(jù)異構(gòu)的學術(shù)資源進行跨平臺的復制檢測。使用支持語言模型的Lemur工具箱,在標準的TREC文檔集上做測試試驗,并對算法的召回率和精準率作出量化;選擇與Turnitin偵探剽竊系統(tǒng)進行實驗對比,評價該基于學術(shù)論文語料庫的統(tǒng)計語言模型及算法。
研究的難點主要在于:①對學術(shù)論文語料庫進行深層加工、統(tǒng)計和學習,獲取大規(guī)模學術(shù)論文語言知識;②計算學術(shù)論文相似度時,不同元數(shù)據(jù)項其權(quán)函數(shù)的確定;③思想剽竊、風格剽竊等深度剽竊特征的提取;④自然語言中的多詞一義易造成漏檢(漏判)等。為了解決以上問題,可以聯(lián)合數(shù)據(jù)庫商,構(gòu)建某一學科專業(yè)領(lǐng)域的語料庫,并從大量科技查新工作等實際檢索實踐中,統(tǒng)計出不同元數(shù)據(jù)項對相似度算法的貢獻率來進一步確定不同元數(shù)據(jù)項權(quán)函數(shù)。語境框架是一個三維的語義描述,它把文本內(nèi)容抽象成領(lǐng)域(靜態(tài)范疇)、情景(動態(tài)描述)、背景(褒貶、參照等)3個框架,應(yīng)在語境框架的基礎(chǔ)上,設(shè)計實現(xiàn)對思想剽竊、風格剽竊等深度剽竊特征的提取算法。通過構(gòu)建學科專業(yè)學術(shù)論文關(guān)鍵詞詞典和利用同義詞詞林,可以克服多詞一義時的漏檢,提高招回率。
相關(guān)文章: