死機(jī)與內(nèi)存的關(guān)系
從電腦出現(xiàn)至今就一直被死機(jī)伴隨著,幾乎沒有誰(shuí)的電腦從不遭遇死機(jī)。在使用過(guò)程中,偶爾一次死機(jī)應(yīng)該算是正?,F(xiàn)象,如果經(jīng)常死機(jī),電腦就存在一定的問題了。那么,電腦為什么會(huì)死機(jī)呢?有哪些因素會(huì)造成電腦死機(jī)呢?要搞清楚這些問題,首先要弄清楚,到底什么是死機(jī)?為什么會(huì)發(fā)生死機(jī)?
造成死機(jī)的原因是多種多樣的,有軟件問題,有硬件問題,不過(guò),死機(jī)的本質(zhì)都是一樣的。
早在N年前,我主持某大學(xué)計(jì)算機(jī)專業(yè)本科生畢業(yè)答辯的時(shí)候,就向某學(xué)生提出過(guò)這樣兩個(gè)問題:
1.電腦死機(jī)的時(shí)候,CPU在干什么(或者說(shuō),CPU處于什么狀態(tài)?)”
2.在計(jì)算機(jī)中,無(wú)論指令代碼還是數(shù)據(jù)代碼,都是用二進(jìn)制來(lái)表示的,請(qǐng)問,CPU是如何判定某二進(jìn)制代碼是指令代碼還是數(shù)據(jù)代碼?
其實(shí),上面兩個(gè)問題的實(shí)質(zhì)是一樣的,主要涉及到CPU是如何取得指令和如何執(zhí)行指令的,把這兩個(gè)問題搞清楚了,死機(jī)的問題也就容易理解了。
首先來(lái)看看,馮.諾依曼結(jié)構(gòu)的電腦是如何取得指令、又是如何執(zhí)行指令的:
馮.諾依曼(1903~1957),匈牙利裔數(shù)學(xué)家,1945年戈德斯坦、勃克斯等人,聯(lián)名發(fā)表了一篇長(zhǎng)達(dá)101頁(yè)紙的報(bào)告,即計(jì)算機(jī)史上著名的“101頁(yè)報(bào)告”,提出了現(xiàn)代計(jì)算機(jī)結(jié)構(gòu)的理論模型--存儲(chǔ)程序計(jì)算機(jī)模型(Stored Program Computer),這就是今天計(jì)算機(jī)最基本的原理模型。
這種結(jié)構(gòu)類型計(jì)算機(jī)工作的時(shí)候,首先必須把完成工作步驟和相關(guān)的數(shù)據(jù)用二進(jìn)制代碼表示出來(lái)(編寫程序),然后再把它們保存在計(jì)算機(jī)的內(nèi)存中,CPU依次從內(nèi)存中讀相關(guān)的指令代碼和數(shù)據(jù)進(jìn)行運(yùn)算,直到完成整個(gè)運(yùn)算過(guò)程并輸出結(jié)果。
要完成這樣的運(yùn)算過(guò)程,人們?cè)谠O(shè)計(jì)運(yùn)算器(CPU)的時(shí)候,首先就要考慮的是,在一段內(nèi)存中,CPU怎樣區(qū)分指令代碼和數(shù)據(jù)代碼。熟悉計(jì)算機(jī)的人都清楚,指令用來(lái)確定“做什么”和“怎樣做”,數(shù)據(jù)是“做”的時(shí)候需要原始數(shù)。
比如:要計(jì)算機(jī)做1 2=?中,“ ”表示要做什么和怎樣做,1和2則是做的時(shí)候需要的原始數(shù)?,F(xiàn)在假設(shè)某CPU中,“ ”用二進(jìn)制“00000001”來(lái)表示,“1、2”分別用“00000001、00000010”來(lái)表示。那么,這段程序存入內(nèi)存中就是這樣的:
XXXX1:00000001
XXXX2:00000001
XXXX3:00000010 前面的XXXX1 XXXX2 XXXX3表示內(nèi)存的地址
從上面可以看出,“ ”指令和被加數(shù)是完全相同的,當(dāng)然,這是我故意這樣假設(shè)的,但是,在實(shí)際情況中,這種情況是大量存在的。在正常情況下,CPU只能把XXXX1內(nèi)存中的00000001作為指令,XXXX2內(nèi)存中的00000001作為被加數(shù)才能得到正確的結(jié)果。那么CPU如何才能做到不把第二個(gè)00000001也當(dāng)成“ ”呢?
1.人們把內(nèi)存的某個(gè)地址規(guī)定為起始地址(又稱為復(fù)位地址),也就是說(shuō),當(dāng)計(jì)算機(jī)開機(jī)或者被強(qiáng)行復(fù)位(也就是機(jī)箱上那個(gè)重啟動(dòng)按鈕按下的的時(shí)候),CPU立即跳轉(zhuǎn)到這個(gè)地址中,并且把它里面的代碼作為指令來(lái)執(zhí)行,同時(shí)根據(jù)這個(gè)指令的長(zhǎng)度和格式判斷下一條指令在什么地方。
對(duì)于X86系列CPU(也就是現(xiàn)在人們常用的什么奔XX、賽XX系列),它的復(fù)位地址是FFFF0,如果表示成邏輯地址則是:FFFF:0000。對(duì)DEBUG比較熟悉的朋友或者會(huì)在一些高級(jí)語(yǔ)言中嵌入?yún)R編語(yǔ)言的朋友可以這樣做一個(gè)試驗(yàn):
用DEBUG執(zhí)行一條指令(這是一條無(wú)條件跳轉(zhuǎn)指令):jmp FFFF:0000,或者在高級(jí)語(yǔ)言中嵌入這條匯編指令,執(zhí)行后,你就會(huì)發(fā)現(xiàn),計(jì)算機(jī)重新啟動(dòng)了。其實(shí),用程序控制計(jì)算機(jī)重啟的最本質(zhì)的操作就是這樣的。
2.給各種指令規(guī)定了相應(yīng)的長(zhǎng)度和格式。比如:某數(shù) 某數(shù)這條指令就規(guī)定:這條指令的長(zhǎng)度是3個(gè)字節(jié),其中第一個(gè)字節(jié)表示“ ”,后面兩個(gè)字節(jié)表示被加數(shù)和加數(shù)。于是,當(dāng)CPU到達(dá)這個(gè)指令后,就自動(dòng)把第一個(gè)代碼作為指令,后面兩個(gè)代碼作為數(shù)據(jù),依次類推,第4個(gè)代碼就必然是指令.....
現(xiàn)在假設(shè),CPU在執(zhí)行指令的時(shí)候因某種原因,誤把本來(lái)是數(shù)據(jù)的代碼當(dāng)成了指令,結(jié)果除了是計(jì)算結(jié)果出錯(cuò)外死機(jī)也就是必然的了。
還是以前面那個(gè)加法程序?yàn)槔寒?dāng)CPU把第三個(gè)代碼(也就是00000010)當(dāng)成了指令,而恰好這個(gè)代碼是一跳轉(zhuǎn)指令,CPU的執(zhí)行結(jié)果將是:XXXX3--跳轉(zhuǎn)--執(zhí)行--跳轉(zhuǎn)--執(zhí)行........進(jìn)入周而復(fù)始的亂條,不過(guò)注意,雖然是在亂跳,CPU卻始終是在不停的正常地執(zhí)行指令,所謂的“亂”是對(duì)用戶而言,對(duì)CPU來(lái)說(shuō)卻是正常的。
還有一種情況就是,如果恰好跳轉(zhuǎn)到了FFFF:0000這個(gè)地址,計(jì)算機(jī)便重新啟動(dòng)了。呵呵,,這下搞清楚了為什么計(jì)算機(jī)有時(shí)會(huì)“莫名其妙地重啟”了把。
有朋友可能會(huì)問,內(nèi)存中怎么可能有如此多的跳轉(zhuǎn)指令呢?是怎么形成的呢?
計(jì)算機(jī)中的最小存儲(chǔ)單位是字節(jié)(8個(gè)二進(jìn)制位),指令功能、長(zhǎng)度和格式也是在一個(gè)字節(jié)中規(guī)定的。因此,平均來(lái)說(shuō),每256個(gè)代碼中就有可能出現(xiàn)一條跳轉(zhuǎn)指令(8位二進(jìn)制數(shù)最多表示256)。
還有一種情況:現(xiàn)在計(jì)算機(jī)的內(nèi)存已經(jīng)達(dá)到數(shù)G的存儲(chǔ)容量,絕大多數(shù)都不可能用到這個(gè)極限,也就是說(shuō),有相當(dāng)長(zhǎng)一段區(qū)域是空白,即使內(nèi)存只有數(shù)百M(fèi)的計(jì)算機(jī)中也不可能把內(nèi)存用完,同樣存在相當(dāng)數(shù)量的空白區(qū)域。特別需要注意的是,空白區(qū)域不等于里面就沒有代碼。因?yàn)?,在?shù)字邏輯電路中,不可能存在“沒有”這種情況,即使是表示沒有(叫做“空”--NULL)也是要用一個(gè)代碼來(lái)表示的(NULL用00000000)來(lái)表示,所以,空白區(qū)域內(nèi)的代碼是“11111111”或者干脆就是一些隨機(jī)代碼。X86系列的CPU“11111111”是一條單字節(jié)的指令nop--空操作指令,當(dāng)CPU跳轉(zhuǎn)到這些空白區(qū)域時(shí),雖然不會(huì)發(fā)生再次跳轉(zhuǎn)的現(xiàn)象,CPU也會(huì)逐條執(zhí)行這些代碼,執(zhí)行到最后一個(gè)內(nèi)存后,CPU將會(huì)回到內(nèi)存的0號(hào)起始地方然后又從頭開始執(zhí)行程序。
有朋友問了,如果硬盤出錯(cuò)會(huì)不會(huì)死機(jī)呢?這個(gè)問題要這樣看。CPU從硬盤中調(diào)入數(shù)據(jù)的時(shí)候會(huì)對(duì)硬盤數(shù)據(jù)做比較嚴(yán)格的校驗(yàn)(一般是CRC--循環(huán)冗余校驗(yàn)),如果校驗(yàn)成功,則不會(huì)死機(jī),如果校驗(yàn)失敗,CPU會(huì)給予用戶提示“校驗(yàn)失敗或者文件損壞”--當(dāng)然也不會(huì)死機(jī);只有在硬盤上的文件已經(jīng)損壞,硬盤把數(shù)據(jù)傳給CPU的時(shí)候“自己沒有發(fā)現(xiàn)”造成的數(shù)據(jù)混亂。所以,硬盤數(shù)據(jù)損壞后,只能造成數(shù)據(jù)丟失,無(wú)法執(zhí)行程序,也可能無(wú)法啟動(dòng)計(jì)算機(jī)。不過(guò),有一種情況例外,那就是硬盤上的某區(qū)域做成的虛擬內(nèi)存,如果這個(gè)區(qū)域損壞是有可能死機(jī)。
內(nèi)存的啟動(dòng)監(jiān)測(cè)問題,計(jì)算機(jī)在開機(jī)的時(shí)候會(huì)對(duì)內(nèi)存進(jìn)行檢測(cè),這種檢測(cè)的方法不外乎有如下一些:
1.最簡(jiǎn)單的檢測(cè)方法:把內(nèi)存從頭到尾讀一遍,能夠讀出數(shù)據(jù)便認(rèn)為內(nèi)存正確。
2.稍微復(fù)雜一些的檢測(cè)方法:把內(nèi)存從頭到尾讀、寫一遍,能夠讀寫數(shù)據(jù)便認(rèn)為內(nèi)存正確。
3.再?gòu)?fù)雜一些的檢測(cè)方法:把內(nèi)存從頭到尾讀、寫數(shù)遍能夠讀寫數(shù)據(jù)便認(rèn)為內(nèi)存正確。
4.簡(jiǎn)單的校驗(yàn)檢測(cè)方法:把內(nèi)存從頭到尾讀、寫數(shù)遍,讀出的數(shù)據(jù)和寫入的數(shù)據(jù)進(jìn)行比較,能夠讀寫、并且讀的數(shù)據(jù)和寫的數(shù)據(jù)相同,則認(rèn)為內(nèi)存正確
5.比較復(fù)雜的校驗(yàn)檢測(cè)方法:對(duì)內(nèi)存讀寫的數(shù)據(jù)同時(shí)進(jìn)行奇偶校驗(yàn)和CRC校驗(yàn),這種方法多用于高檔服務(wù)器,同時(shí),能夠做奇偶校驗(yàn)的內(nèi)存(ECC內(nèi)存)價(jià)格比普通內(nèi)存貴10倍以上(不知道為什么)。